Generative Ai – Telegram
Generative Ai
3.63K subscribers
289 photos
117 videos
7 files
830 links
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film
Download Telegram
Forwarded from эйай ньюз
🔥DeepFloyd IF: новая text-2-image модель

StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.

Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.

Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL

— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост

— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.

Код выложили, веса ждем тут. И ждем подробной статьи от авторов.

@ai_newz
👍3👎1👏1
Forwarded from Machinelearning
🖌 Edit Everything: A Text-Guided Generative System for Images Editing

A text-guided generative system without any finetuning (zero-shot).

Edit Everything позволяет пользователям редактировать изображения с помощью простых текстовых инструкций.


🖥 Github: https://github.com/defengxie/edit_everything

Paper: https://arxiv.org/abs/2304.14006v1

🚀 Dataset: https://paperswithcode.com/dataset/wukong

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥2
Forwarded from Сиолошная
Промпты, промпты, промптики...

Промпты для современных GPT-моделек это вообще всё. Они позволяют переключить модель в некоторое "состояние", из которого вероятность генерации правильных/удовлетворяющих вас/клевых ответов выше. Вот наткнулся на офигенный промпт, и хочу поделиться с вами.

Сегодня у нас в гостях Mr. Ranedeer — AI Tutor на основе GPT-4. Он обеспечивает персонализированный опыт обучения для пользователей с различными потребностями и интересами. Имеет 6 разных настроек, включая глубину обучения, тип и тон повествования.

Согласно промпту, сначала производится настройка, затем составляется план обучения, а дальше идет двусторонний диалог учителя и ученика (вас).
Пока учитель ограничен лишь своими знаниями, но ясно, что с подключением плагина на веб-поиск это станет бомбой.

Репозиторий - тут
Детальная документация по промпту (лол, дожили!) - здесь
Сам промпт - вот, прям выделяете всё, копируете и вставляете в ChatGPT сразу (не превышает заданную длину контекста для модели, всё ок)

Киллер-фича: можно написать /test, чтобы попросить модель потестировать ваши знания по уже пройденному материалу

Те, у кого оплачена подписка ChatGPT Plus - обязательно попробуйте, и поделитесь впечатлениями и скринами в комментариях. Предложу такие темы, как:
— conditions in English language
— asteroid mining and space exporation
— how can we integrate using analog devices
— how to start business with generative AI
— LLM prompting intro

Гспд вы только представьте как изменится образование для наших детей...(никак, хехе, спасибо бюрократии 🤬)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
И ещё из новостей:

In this repo, we release a permissively licensed open source reproduction of Meta AI's LLaMA large language model. In this release, we're releasing a public preview of the 7B OpenLLaMA model that has been trained with 200 billion tokens. We provide PyTorch and Jax weights of pre-trained OpenLLaMA models, as well as evaluation results and comparison against the original LLaMA models. Stay tuned for our updates.

https://github.com/openlm-research/open_llama
​​Phoenix: Democratizing ChatGPT across Languages

Introducing "Phoenix," a revolutionary multilingual ChatGPT that's breaking barriers in AI language models! By excelling in languages with limited resources and demonstrating competitive performance in English and Chinese models, Phoenix is set to transform accessibility for people around the world.

The methodology behind Phoenix combines instructions and conversations data to create a more well-rounded language model, leveraging the multi-lingual nature of the data to understand and interact with diverse languages.

Paper link: https://arxiv.org/abs/2304.10453

Code link: https://github.com/FreedomIntelligence/LLMZoo

A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-phoenix-llm

#deeplearning #nlp #Phoenix #ChatGPT #multilingual #languagemodel
Forwarded from Machinelearning
🖥 Awesome Chatgpt

Awesome list for ChatGPT — an artificial intelligence chatbot

Awesome список для ChatGPT.


🖥 Github: https://github.com/sindresorhus/awesome-chatgpt

💨 Examples: https://github.com/xiaowuc2/ChatGPT-Python-Applications

✅️ QuickGPT: https://sindresorhus.gumroad.com/l/quickgpt

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs

Introducing MPT-7B, the latest entry in our MosaicML Foundation Series. MPT-7B is a transformer trained from scratch on 1T tokens of text and code. It is open source, available for commercial use, and matches the quality of LLaMA-7B. MPT-7B was trained on the MosaicML platform in 9.5 days with zero human intervention at a cost of ~$200k. Starting today, you can train, finetune, and deploy your own private MPT models, either starting from one of our checkpoints or training from scratch. For inspiration, we are also releasing three finetuned models in addition to the base MPT-7B: MPT-7B-Instruct, MPT-7B-Chat, and MPT-7B-StoryWriter-65k+, the last of which uses a context length of 65k tokens!

https://www.mosaicml.com/blog/mpt-7b
👍42
Looks interesting!

Introducing ImageBind by Meta AI: the first AI model capable of binding information from six different modalities at once.

Humans absorb information from the world by combining data from different senses, like sight and sound. ImageBind brings machines one step closer to this ability with a model that’s capable of learning a single embedding for text, image/video, audio, depth, thermal and IMU inputs. We hope this work opens the floodgates for researchers as they work to develop new, holistic systems across a wide array of real-world applications.

The model and a new paper are now available publicly for the research community.

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
🔥3
Forwarded from Spark in me (Alexander)
Found another PyTorch-based library with basic image functions, losses and transformations

Looks like it is a combination toolkit of augs, skimage and classic cv2 functions, but written in PyTorch.

What is Kornia? Kornia is a differentiable library that allows classical computer vision to be integrated into deep learning models.

Examples:

- https://kornia.readthedocs.io/en/latest/get-started/highlights.html
- and especially this https://kornia.readthedocs.io/en/latest/losses.html
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ImageBind: One Embedding Space To Bind Them All

ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data.

ImageBind, новый подход от Meta к обучению совместному встраиванию шести различных модальностей - текста,изображений, аудио, глубины, тепловых данных и данных IMU.

🖥 Github: https://github.com/facebookresearch/imagebind

Ⓜ️ Meta blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

Paper: https://arxiv.org/pdf/2305.05665v1.pdf

⭐️ Demo: https://imagebind.metademolab.com/

📌 Dataset: https://paperswithcode.com/dataset/msr-vtt

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Forwarded from Denis Sexy IT 🤖
Так, ну было хоть и местами скучно, мне понравилось:

🪙 Gmail получит встроенную LLM для автоматического написания черновика. Например, отменили рейс и прислали вам письмо, вы можете сразу написать заявку на рефанд с помощью одной кнопки. В целом, ничего нового, делаю такое же с ChatGPT через плагин.

🪙 Google Maps получит обновление летом, а точнее его функция Immersive view - строите маршрут и он показывает его как в SimCity в 3D на основе реальных данных (скан реального мира), с машинками виртуальными и тп. Тут видео.

🪙 Google показал свой новый ответ GPT от OpenAI – Palm 2, это серия моделей от самой маленькой которая может работать оффлайн на телефоне и до самой большой которая работает в облаке. Bard, ChatGPT от Google, тоже перевели на Palm 2 уже сегодня. Еще в Bard добавят плагины, такие же как в ChatGPT. И с сегодня доступ открыли для всех:
https://bard.google.com

Google также показал интеграцию Bard в Google Docs, Slides, Tables и тп, тут как бы тоже все что вы уже видели от Microsoft.

🪙 Google поиск чуть изменит результаты выдачи, и первый остров станет пытаться отвечать на вопрос в стиле ChatGPT.

Если честно, очень логичный шаг, очень утомляет ходить в ChatGPT или Bing Chat когда ищешь ответ на вопрос, не всегда же приходишь пообщаться, иногда просто нужен быстрый ответ (но опция початиться тоже останется). "Остров ответа нейронкой" занимает немного места, так что сможете использовать Google как обычно, промотав ответ языковой модели. Видео тут.
Лица SEO-экспертов имаджинировали?

🪙 Теперь большой бизнес может купить тренировку своей большой языковой модели в Google Cloud через Vertex AI. Это, условно, если вы хотите в организации рабочего бота обученного на данных компании, и вам не хочется нанимать свой R&D отдел, вы можете заплатить им и они сделают все что нужно, на самых лучших моделях. Золотая жила и классный продукт.
Доступен тут, обещают ранний доступ: 
https://cloud.google.com/vertex-ai

🪙 Тут в целом можно посмотреть про AI штуки что показали, и запросить доступы:
https://labs.withgoogle.com/

В общем, как и ожидалось, Google долго запрягает, потому что они большие, но им есть куда встраивать AI-штуки, и главное они знают как их сделать удобными, молодцы (но мне все еще нравится подшучивать над ними когда у них что-то не получается ☺️)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Machinelearning
VideoChat: Chat-Centric Video Understanding

Currently, Ask-Anything is a simple yet interesting tool for chatting with video.

Набор данных, ориентированный на видео, состоящий из тысяч видеороликов, сопровождаемых подробными описаниями и субтитрами.


🖥 Github: https://github.com/OpenGVLab/Ask-Anything

⭐️ Demo: https://huggingface.co/spaces/ynhe/AskAnything

Paper: https://arxiv.org/pdf/2305.06355v1.pdf

📌 Dataset: https://paperswithcode.com/dataset/webvid

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1
Forwarded from эйай ньюз
Sophia: новый оптимизатор, который 2x быстрее, чем Adam для тренировки LLM

До сих пор все тренируем со старым добрым Адамом. А ему уже 7 лет!

Не так давно я писал о многообещающем оптимизаторе LION. Ну, а теперь появился еще один интересный кандидат.

Sophia — это оптимизатор, который использует быструю оценку Гессиана (матрица вторых производных) для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь, где именно Адам довольно медленно продвигается. Вторые производные тут как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.

Вычислять Гессиан в общем случае довольно медленно, поэтому методы второго порядка так и не получии распространения в DL.
На картинке есть псевдокод, из которого видно, что оценить диагональные элементы Гессиана можно довольно быстро.

Sophia ускоряет обучение LLM в 2 раза (!). Протестировали на GPT-2 моделях масштаба от 125M до 770M параметров. Тренд на дальнейшее масштабирование выглядит хорошо.

❱❱ Arxiv | Code

@ai_newz
🔥3🤬1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🔊SoundStorm: Efficient Parallel Audio Generation

Свежачок от Google! Кто-то еще сомневается, что AI через год не сможет позвонить по телефону и забронировать для вас столик в ресторане?

А в этой работе все даже круче. Нейронка умеет синтезировать даже диалоги с разными голосами. То есть сможет прочитать любой блогпост либо интервью для вас, как будто бы слушаете подкаст.

Что синтезировать можно задать текстом, а сам голос можно задать примером из нескольких секунд реальной записи.

✔️Архитектура не авторегрессионная (как в AudioLM), а генерит сразу кусками по 30 секунд, что более эффективно.
✔️Сеть тренировали на датасете из 100,000 часов диалогов.
✔️По скорости инференса уже довольно бодро, 30 секунд диалога генерируется за 2 сек на TPU-v4. И я уверен, что скоро будет еще быстрее.

Статья
Примеры
Неофициальный код от lucidrains

@ai_newz #audio
🤮1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Introducing BERTopic Integration with the Hugging Face Hub

BERTopic provides a powerful tool for users to uncover significant topics within text collections, thereby gaining valuable insights.

BERTopic - это современная библиотека Python, которая упрощает процесс моделирования тем, используя различные трансформеры и c-TF-IDF для создания кластеров на основе плотности, позволяющих легко интерпретировать темы, сохраняя при этом важные слова в описаниях тем.

pip install bertopic

🤗 Hugging face: https://huggingface.co/blog/bertopic

🖥 Github: https://github.com/MaartenGr/BERTopic

Colab: https://colab.research.google.com/#fileId=https://huggingface.co/spaces/davanstrien/blog_notebooks/blob/main/BERTopic_hub_starter.ipynb

📌 Docs: https://maartengr.github.io/BERTopic/getting_started/quickstart/quickstart.html

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего особенного. Просто LLaMa.cpp на 7 млрд параметров работает со скоростью 40 токенов/сек на MacBook с чипом M2 Max.

Это стало возможным после недавного обновления репозитория от Греганова, где он полностью реализовал инференс моделей на Metal GPU (это специальный ускоритель на новых чипах Apple). Мы видим 0% CPU утилизации, и загрузку всех 38 Metal ядер. Поистине искусный инженер от народа!

От себя добавлю, что очень хочу увидеть будущее, где у каждого локально бегает своя персонализированная LLM-ка, помогающая в рутинных делах. Это называется модуляризацией. Огромную модель тренируют централизовано, а далее каждый пользователь легко и быстро (мы к этому стремися) ее дошлифовывает на своих персональных данных и крутит только локально.

@ai_newz
🔥7👍1👎1👏1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
MusicGen - SOTA для генерации музыки по тексту

Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.

Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.

Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.

Музыканты, битмейкеры и диджеи - налетайте!

Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться

@ai_newz
👍2🤮2