Мишин Лернинг – Telegram
Мишин Лернинг
7.78K subscribers
1.17K photos
151 videos
4 files
642 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта. 🇺🇦🇮🇱
Download Telegram
🗡️ 🔡🔡🅰️🔡🔡🔡🔡🔡🔡🔡 🔡🔡🔡🔡🅰️🔡🔡🔡

Помните, я писал, что LAION обучили CLIP-H? Кроме опенсорсной SOTA в Zero-Shot на ImageNet, CLIP можно использовать и для генерации в режиме Classifier-Guidance.

В этом посте хочется чуть рассказать про Classifier-Guidance. Ведь StabilityAI уже добавили эту фишку в свой редактор DreamStudio!

🥩 К а к р а б о т а е т C l a s s i f i e r G u i d a n c e ?

Classifier Guidance — это подход для улучшения генераций уже обученной диффузии. То есть дообучать ничего не нужно. Ну почти. Кроме обученной диффузии, еще нужен классификатор. Но зачем?

Дело тут в том, что DDPM и даже iDDPM не выдают нормальных семплов при генерации. Это одна из проблем диффузии. Семплированию нужно помогать! Без этой помощи у iDDPM на вышло составить конкуренцию BigGAN на ImageNet генерации, а вот Diffusion Models Beat GANs on Image Synthesis вышло! Кроме поиска архитектурного решения: UNet c оптимальным кол-вом residual блоков и атеншн, ключевой идеей стал Classifier Guidance.

DDPM предсказывает µ шума, который нужно убрать из картинки. iDDPM, кроме mean предиктят еще и Σ. Рассмотрим на примере генерации кота:

1) Предскажем µ и Σ зашумленного изображения x_t в момент (шаг диффузии) времени t

2) Подадим x_t на классификатор , и получим градиенты (по сути deep-dream-like градиенты) от класса y (кот) по входу:
grads = ∇x_t log Pφ(y|x_t)

3) Получим новый mean µ_new как сумму µ и Σ*grads. Смысл тут такой: µ (mean) это то, что нужно задейнозить по мнению диффузии, а grads то, что нужно изменить по мнению классификатора. Кстати, Σ предсказывает разброс в котором можно сэмплироваться, и логично использовать Σ для скейла градиентов:
µ_new = µ + Σ * grads

А что делать чтобы генерировать по текстовому описанию? Использовать zero-shot классификатор CLIP!

Конечно в таком подходе мы упираемся в понимание текста самим CLIP'ом, но для таких моделей как Stable Diffusion знания CLIP сильно помогают. см картинки

❤️ Попробовать CLIP-Guidance в DreamStudio

@ м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍154🔥3❤‍🔥2🏆2
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Всем любителям нейро-музыки – тут выкатили клевую генерацию аудио в реалтайме, веса, и инстуркцию как на своих данных доучить алгоритм 🌚

Даже в LoFi умеет

Код: https://github.com/marcoppasini/musika

Онлайн демка: https://huggingface.co/spaces/marcop/musika
😍223👍3❤‍🔥2👎2🔥2
Forwarded from AI для Всех
Нейрокомпрессия звука

Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.

Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.

Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.

Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.

Pied Piper только что стал реальностью, более того - опенсорсной.

🦦 Блог-пост
📖 Статья
🤤 Код
🔥111❤‍🔥10👍8💯3👌2
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Там на huggingface появилось пространство с text2music

Мелодии вполне годные выходят, генерация быстрая (при условии, что нет очередей и нагрузка не большая).

А если очередь большая, то можно запустить в колабе
👍39❤‍🔥11🔥82🌚2
🚀 Встречайте новую SOTA Text-2-Image eDiffi: Диффузионные "Эксперты" от NVIDIA

Новый Text-to-Image. В данном случае на классических диффузионных пиксельных каскадах. Модель является гибридом DALL-E от OpenAI 2 и Imagen от Google.

Модель по прежнему использует 3 каскада:
1) Text-To-64pix
2) 64pix-To-256pix
3) 256pix-to-1024pix

Но в данном случае все три модели могут брать любую комбинацию кондишенов из следующих моделей:
— T5 XXL
— CLIP-L/14 Text
— CLIP-L/14 Image

Это позволяет использовать сеть в режиме генерации вариаций (Привет DALL-E 2), а так же юзать легковесный CLIP вместо T5 XXL (который имхо весит неоправданно много). Вообще интересно показано, что T5 работает в связке с CLIP-L/14 Text лучше, чем просто T5. И (спойлер) это действительно так (не скажу откуда знаю).

Кроме того, сеть использует модели — Диффузионные Эксперты для разных этапов денойзинга. Тут смысл такой, если не жалко видеопамять, то можно сделать моделт под разные этапы денойза, например одну под первые 256 шагов, вторую под следующие 256 и так далее. Такие 4 модели буду работать лучше, чем одна. Но и в памяти нужно будет держать их всех.

👑 Используя все эти фишки Karrasи компания добились того, что
eDiffi-Config-D 9.1B (Вместе с CLIP-L/14 и T5-XXL Enc) бьет Zero-shot FID ↓ на COCO-30K 2014 valid SOTA:

GLIDE : 5B - 12.24 FID ↓
MakeAScene : 4B - 11.84 FID ↓
DALL·E 2 : 6.5B - 10.39 FID ↓
StableD : 1.4B - 8.59 FID ↓
Imagen : 7.9B - 7.27 FID ↓
Parti : 20B - 7.23 FID ↓
eDiffi D: 9.1B - 7.04
FID ↓

Ну вот такие новости. Очень много полезных вещей попробовали, советую почитать статью.

🥑 eDiffi от NVIDIA
📇 Paper eDiffi

@ м и ш и н л е р н и н г
👍38🔥51❤‍🔥1😍1🏆1💋1
Forwarded from Denis Sexy IT 🤖
Ночью выкатили совершенно офигенную фичу для пользователей нейролава: тренировка своих моделей для арт генерации, aka Dreambooth.

Работает примерно так: вы учите ее на 20+ фотографиях объектов, или одном стиле, и после этого получаете модель где текстом можете указывать «что именно с объектом происходит и в каком он стиле».

В отличие от конкурентов, мы позволяем не только натренировать модель каждому желающему, но и использовать ее после на сайте, как и обычный арт генератор (и со всеми улучшалками что мы встроили в базовую SD).

Помимо этого, бонусом идет база промптов которые наша команда подготовила – то есть можно просто сидеть и рандомно выбирать, что понравилось.

Например – я, один раз обучив модель на 20 своих фотках, больше не нуждаюсь в новых аватарках, потому что могу теперь их производить в фабричных масштабах по тысяче в день.

Играться тут, фича платная:
https://neural.love/train-a-model
(Инструкция по ссылке)

P.S. Очень горжусь командой, параллельно обслуживать тренировки моделей, которые могут длится по часу и больше, та еще задача
🔥43👍72😢1