Forwarded from DLStories
eDiffi: новая SOTA text-to-image диффузионная модель от Nvidia, которая также хорошо умеет в style transfer и генерацию картинок по скетчам (!)
Авторы eDiff пристально посмотрели на то, как происходит генерация картинок диффузионными моделями, и нашли две интересные особенности. Эти особенности они затем использовали для построения более эффективной архитектуры модели.
Вот что за особенности:
1️⃣ Как мы знаем, диффузия генерирует картинку шаг за шагом, на каждом шаге чуть уменьшая зашумленность картинки. Ребята из Nvidia внимательно посмотрели на этот процесс и заметили, что на первых шагах алгоритма (когда картинка представляет из себя практически гауссов шум), значения матрицы cross-attention между пикселями картинки и эмбеддингами текста довольно большие. Т.е. это значит, что на первых шагах алгоритм сильно опирается на текст, чтобы сгенерировать следующую картинку. А на последних шагах алгоритма, когда картинка уже почти готова и шума осталось мало, значения матрицы cross-attention малы. Это значит, что модель практически игнорирует текст на этом этапе.
Это звучит логично: на первых шагах входящая картинка — это просто случайный шум, и модель “смотрит” на текст, чтобы понять, что вообще генерировать. А на последних шагах все объекты на изображении уже расставлены, и задача модели — добиться визуальной красоты, убрать малый остаточный шум, причесать детали.
В связи с этим авторы предположили, что иметь лишь одну модель для всех стадий генерации картинки из шума не оптимально. Она ведь, по сути, разные задачи на разных этапах решает. Поэтому они педложили сделать три модели: одну для начальных этапов (когда нужно сильно смотреть на текст), вторую для середины процесса, третью — для финала (когда нужно “причесывать детали”).
Чтобы сильно не увеличивать время обучения (три модели обучать дороже), авторы сначала обучают одну модель, как обычно это и делается, и затем делят ее на три и немного дообучают их каждую для своей стадии.
Эта идея позволяет получить SOTA диффузию на датасете COCO 2014, и обойти Imagen, Parti, Stable Diffusion и другие модели.
2️⃣ Идея номер два связана с то, каким образом получаются эмбеддинги текста. Мы помним, что DALL-E 2 использует эмбеддинги предобученного CLIP, а Imagen и многие другие модели — эмбеддинги из языковой модели T5 (тоже предобученной). Переход от CLIP к T5, казалось бы, улучшил результаты: детали генерируемых картинок стали более четкими, на них даже начал появляться осмысленный текст.
Однако не все так однозначно (эта фраза вызвала нервую улыбку, простите)). Похоже, эмбеддинги CLIP и T5 каждый по-своему хороши. Диффузия с эмбеддингами CLIP позволяет получить более “цельно” выглядящую картинку, все детили которой хорошо согласуются между собой. Эмбеддинги T5 же делают детали картинки более проработанными.
Идея тогда проста: обучать сеть на обоих эмбедднгах сразу. И это помогает: картинки становятся в целом еще лучшего визуального качества. Метрика FID-CLIP для такой модели также выше, чем для моделей, обученных только с CLIP или только с T5.
Вот такая общая идея модели. Лакончично и практично. Но и это еще не все: авторы также придумали, как делать классный style transfer и генерацию изображений по скетчам. Об этом будут следующие посты⬇️
📃 Статья
Авторы eDiff пристально посмотрели на то, как происходит генерация картинок диффузионными моделями, и нашли две интересные особенности. Эти особенности они затем использовали для построения более эффективной архитектуры модели.
Вот что за особенности:
1️⃣ Как мы знаем, диффузия генерирует картинку шаг за шагом, на каждом шаге чуть уменьшая зашумленность картинки. Ребята из Nvidia внимательно посмотрели на этот процесс и заметили, что на первых шагах алгоритма (когда картинка представляет из себя практически гауссов шум), значения матрицы cross-attention между пикселями картинки и эмбеддингами текста довольно большие. Т.е. это значит, что на первых шагах алгоритм сильно опирается на текст, чтобы сгенерировать следующую картинку. А на последних шагах алгоритма, когда картинка уже почти готова и шума осталось мало, значения матрицы cross-attention малы. Это значит, что модель практически игнорирует текст на этом этапе.
Это звучит логично: на первых шагах входящая картинка — это просто случайный шум, и модель “смотрит” на текст, чтобы понять, что вообще генерировать. А на последних шагах все объекты на изображении уже расставлены, и задача модели — добиться визуальной красоты, убрать малый остаточный шум, причесать детали.
В связи с этим авторы предположили, что иметь лишь одну модель для всех стадий генерации картинки из шума не оптимально. Она ведь, по сути, разные задачи на разных этапах решает. Поэтому они педложили сделать три модели: одну для начальных этапов (когда нужно сильно смотреть на текст), вторую для середины процесса, третью — для финала (когда нужно “причесывать детали”).
Чтобы сильно не увеличивать время обучения (три модели обучать дороже), авторы сначала обучают одну модель, как обычно это и делается, и затем делят ее на три и немного дообучают их каждую для своей стадии.
Эта идея позволяет получить SOTA диффузию на датасете COCO 2014, и обойти Imagen, Parti, Stable Diffusion и другие модели.
2️⃣ Идея номер два связана с то, каким образом получаются эмбеддинги текста. Мы помним, что DALL-E 2 использует эмбеддинги предобученного CLIP, а Imagen и многие другие модели — эмбеддинги из языковой модели T5 (тоже предобученной). Переход от CLIP к T5, казалось бы, улучшил результаты: детали генерируемых картинок стали более четкими, на них даже начал появляться осмысленный текст.
Однако не все так однозначно (эта фраза вызвала нервую улыбку, простите)). Похоже, эмбеддинги CLIP и T5 каждый по-своему хороши. Диффузия с эмбеддингами CLIP позволяет получить более “цельно” выглядящую картинку, все детили которой хорошо согласуются между собой. Эмбеддинги T5 же делают детали картинки более проработанными.
Идея тогда проста: обучать сеть на обоих эмбедднгах сразу. И это помогает: картинки становятся в целом еще лучшего визуального качества. Метрика FID-CLIP для такой модели также выше, чем для моделей, обученных только с CLIP или только с T5.
Вот такая общая идея модели. Лакончично и практично. Но и это еще не все: авторы также придумали, как делать классный style transfer и генерацию изображений по скетчам. Об этом будут следующие посты⬇️
📃 Статья
👍21❤1👎1
каждый учит как он хочет - сказали ребята из nvidia и выпустили а100800 только для китайского рынка
Забавно что это 1 в 1 а100 с той лишь разницей что зарезали шину между картами, те теперь на них нельзя построить нормальный кластер - не хватит скорости передачи данных между картами.
Для тех кто смотрит с середины - для Китая ввели санкции на поставке железок для кластеров
the verge
Забавно что это 1 в 1 а100 с той лишь разницей что зарезали шину между картами, те теперь на них нельзя построить нормальный кластер - не хватит скорости передачи данных между картами.
Для тех кто смотрит с середины - для Китая ввели санкции на поставке железок для кластеров
the verge
The Verge
Nvidia’s selling a nerfed GPU in China to get around export restrictions
The US has restricted the sale of some cards to the country.
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia выложили в open source свой физический движок
github
github
🤔13❤7👍1
Самый важный вопрос: как связан recsys, nlp и причем тут agi
🤔6
This media is not supported in your browser
VIEW IN TELEGRAM
Yes, I am 2004
Yes, I am senior quantitative researcher
Yes, I am senior quantitative researcher
👍31🤡17😁5
Forwarded from Towards NLP🇺🇦
Stanford Seminar — ML Explainability
If you want to be introduced into explainability topic, there is a cool seminar from Stanford! From the basics to the new horizons of research in this field.
Videos on Youtube: link
Slides: link
If you want to be introduced into explainability topic, there is a cool seminar from Stanford! From the basics to the new horizons of research in this field.
Videos on Youtube: link
Slides: link
YouTube
Machine Learning Explainability Workshop I Stanford
Professor Hima Lakkaraju's day-long workshop at Stanford covered modern techniques for interpretable machine learning. About the speaker: Himabindu (Hima) La...
🔥6💩3
#чтивонаночь
Contrastive text generation
DeepMind выпустили работу с соответствующим названием,
Суть этого метода генерации в том что вероятность следующго токена определяется по формуле p_token + a(косинусное расстояние ака соответствие предыдущему контексту по эмбедингам)
В целом это позволяет генерировать более связанные контекстно длинные тексты, прм этом не используя тяжёлые доп модели вроде pplm.
🤗 Hf blogpost
🖥 GitHub
Paper
Contrastive text generation
DeepMind выпустили работу с соответствующим названием,
Суть этого метода генерации в том что вероятность следующго токена определяется по формуле p_token + a(косинусное расстояние ака соответствие предыдущему контексту по эмбедингам)
В целом это позволяет генерировать более связанные контекстно длинные тексты, прм этом не используя тяжёлые доп модели вроде pplm.
Paper
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Generating Human-level Text with Contrastive Search in Transformers 🤗
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍19🔥9
Forwarded from Anastasia Khveschuk
Всем привет! Мои друзья делают благотворительный хакатон: можно оформить кейс себе и здорово помочь другим.
Leave2Live — это двухдневный хакатон для помощи беженцам и релокантам. Участники будут создавать IT-продукты, чтобы облегчить жизнь людей на новом месте.
Подробнее на сайте → https://l2lhackathon.com/
Рынку нужны новые решения, поэтому ждем любых неравнодушых спецов: кодеров, ноу-кодеров, дизайнеров, продукт-менеджеров и не только. Можно податься одному или сразу командой 2-5 человек.
📍Онлайн, 19–20 ноября.
Для этого чата сделали отдельную форму для заявок: кликать сюда.
Leave2Live — это двухдневный хакатон для помощи беженцам и релокантам. Участники будут создавать IT-продукты, чтобы облегчить жизнь людей на новом месте.
Подробнее на сайте → https://l2lhackathon.com/
Рынку нужны новые решения, поэтому ждем любых неравнодушых спецов: кодеров, ноу-кодеров, дизайнеров, продукт-менеджеров и не только. Можно податься одному или сразу командой 2-5 человек.
📍Онлайн, 19–20 ноября.
Для этого чата сделали отдельную форму для заявок: кликать сюда.
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Человек выкладывается на работе, а не эти ваши нейронки обучает
🤣51🔥12👍6😁1😱1🎉1
Love. Death. Transformers.
MagicMix: Semantic Mixing with Diffusion Models (кажется 8) работа на тему: а давайте как нибудь подумаем как редактировать картинки. в чем идея этой: давайте зашумим картинку, затем возьмем и сгенериуем начало шума картинки для нужного концепта, затем шумы…
Мне было скучно и я закодил MagicMix ака человеческое редактирование картинок текстом, кормишь картинку, кормишь prompt, получаешь отборный кринж;
collab
Если вы хотите больше такого - поддержите мой boosty
collab
Если вы хотите больше такого - поддержите мой boosty
👍12
Дорогие подписчики, помогите найти много аниме картинок в 512*512 и выше на одном сайте/тг канале.
Спасибо
Спасибо
🔥20🖕1
Forwarded from AbstractDL
MinD-Vis: диффузия для чтения мыслей
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
🔥33🤯11🤨2👍1😁1🤩1
Forwarded from AI для Всех
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 "Galactica". Большая языковая модель для науки.
Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.
Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).
Попробовал ее на своей довольно специфичной области - работает на ура!
🪐 Онлайн демо
🫣 Модель
🦭 Статья
Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.
Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).
Попробовал ее на своей довольно специфичной области - работает на ура!
🪐 Онлайн демо
🫣 Модель
🦭 Статья
👍23❤5🤔1
#чтивонаночь
Versatile Diffusion или диффузия 3в1
Идея в том чтобы используя пошаренные веса внутри одной модели, брать разные пары encoder-decoder и решать фактически любые таски (img2img, text2text).
Авторы называют это фреймворком и предлагают допиливать свою модель под новые модальности, 3d, аудио и тд, для этого нужно взять clip_like энкодер и vae_like декодер, а затем поучить это в связке
Sota ожидаемо не бьется, но выглядит очень красиво
🤗space
🖥 github
Versatile Diffusion или диффузия 3в1
Идея в том чтобы используя пошаренные веса внутри одной модели, брать разные пары encoder-decoder и решать фактически любые таски (img2img, text2text).
Авторы называют это фреймворком и предлагают допиливать свою модель под новые модальности, 3d, аудио и тд, для этого нужно взять clip_like энкодер и vae_like декодер, а затем поучить это в связке
Sota ожидаемо не бьется, но выглядит очень красиво
🤗space
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
This media is not supported in your browser
VIEW IN TELEGRAM
Четверг котаны, 1 день остался
🌚28🌭17👍6💩5🔥4🍓1