This media is not supported in your browser
VIEW IN TELEGRAM
🦚 DreamFusion: Text-to-3D using 2D Diffusion от ?Google
Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..
🚀 Как работает? Идея супер изящная!
Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН
4) После чего Имаген предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..
👁 gallery
📄 paper
📇 project
🤖 м и ш и н л е р н и н г
Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..
🚀 Как работает? Идея супер изящная!
Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН
4) После чего Имаген предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..
👁 gallery
📄 paper
📇 project
🤖 м и ш и н л е р н и н г
🔥23❤6👍4❤🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
♟ Google создал нейросеть, способную создавать 3D модели по текстовому описанию!
А самое крутое то, что самую сложную ее часть даже не нужно было обучать 💖 За основу Text-to-2D взяли Imagen!
🦾 подробнее тут
А самое крутое то, что самую сложную ее часть даже не нужно было обучать 💖 За основу Text-to-2D взяли Imagen!
🦾 подробнее тут
❤39🔥22👍4🏆4❤🔥3
Что круче?
Anonymous Poll
13%
📹 Text-To-Video от MetaAI
28%
🦚 Text-To-3D от Google
59%
🤔 С серьезным лицом посмотреть результат
🐳12🔥6👍3👎1
☠️ Colab — Все!
Все мы любили колаб. Но увы, ничто не вечно под луной. И теперь можно купить или 100 или 500 compute units, что в переводе на бытовой означает, что колаб сдулся.
🪦 Царство небесное, вечн Йисгадал вэйискадаш шмэй рабо..
🤖 м и ш и н л е р н и н г
Все мы любили колаб. Но увы, ничто не вечно под луной. И теперь можно купить или 100 или 500 compute units, что в переводе на бытовой означает, что колаб сдулся.
🤖 м и ш и н л е р н и н г
😢121🙏1
— Генератор и дискриминатор вооруженных сил рф
— Loss продолжил отрицательное падение
— Dropout в рядах вооруженных сил
— Произошел хлопок градиентов
— "CUDA error: out of memory" — Обучение совершило жесткую посадку
— Чистка датасета в фильтрационных лагерях
— Шаг доброй воли по отрицательному направлению к сходимости
— Феномен пропадающих без вести градиентов
— Срочников будут посылать на глубокие обучения
— Параллельный import torch as th
— Превентивный gradient clipping
— Недружественные фреймворки
— Традиционные свертки вместо их нетрадиционных Трансформеров
— Локальные минимумы и седловые точки признаны Экстремистскими
— Показывает все признаки латентного вектора
— 140 миллионов точек Z-пространства
— Специальная градиентная аккумуляция
— Частичная квантизация
— Свой трейн не бросаем (С) Z-вектор Vq-gan'ов
— Денормализация и детокенизация
— RL-алгоритмы признаны иностранными агентами
— Прунинг войск с целью оптимизации
p.s.:
- А в какой концлагерь нас везут?
- Я не знаю, я вне политики.
🤖 м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
👍98👎36🔥20🕊4⚡3💋3🐳2❤1🌚1
Применит ли хуйло ядерное оружие?
Anonymous Poll
20%
Да, применит
16%
Попытается, но саботируют
31%
Нет, может только блефовать
33%
👍 прищурив глаз, посмотреть на результат
🕊60👎46👍9❤🔥5
🤷♀️ 55% подписчиков считают, что бункерный применит ядерное оружие
(да применит + попытается) / (все - посмотреть результат)
окей, пошёл работать дальше
(да применит + попытается) / (все - посмотреть результат)
окей, пошёл работать дальше
🕊86👎21🌚11👍6😢2😍2🏆2⚡1🐳1💋1
👾 Мысли вслух про диффузионные модели
Я озвучу основную мысль из этого блог поста, а потом немного разовью ее. Мысль наивная, но все же:
Диффузионные модели — это автоэнкодеры. Особенно, если немного прищуришься.
Что еще можно сказать про диффузионные модели:
▪️Обучение скор-функции ∇x log p(x) распределения сводится к предсказанию денойзинга распределения, которое изначально зашумили. Это супер просто — не нужно городить никаких сложных концепций, десяков лоссов, контролировать сходимость и ухищряться.
▪️В сравнении с вариационными автоэнкодерами (VAE), диффузиям не просто не нужно делать боттлнэк с репараметризациями или прчими vq-, gumbel- приколами, а вообще не нужно делать боттлнэк!
▪️На разных этапах денойзинга модель может сосредоточиться на разных задачах:
— на ранних шагах заниматься формой объектов
— на поздних прорисовывать детали
К чему я это веду? К тому "Почему Диффузии круче, чем VAE для обучения генеративок?"
1) Диффузу не нужен боттлнэк.
А без него намного проще обучать. Не нужно накладывать ограничения на глубину и размер, на vq-словарь и прочее, занимать репараметризацией. А вдобавок можно кидать резидиулы, делая полноценный юнет. И вот это все вместе прям очень-очень упрощает сходимость!
2) Многопроходные подходы лучше однопроходных.
Однопроходные сети (VAE, GAN) должны решить задачу генерации (или проявки изображения) за, простите за тавтологию, один forward pass. Диффузии же делают от 50 до 4000 шагов, имея возможность постепенно переходить от генерации формы к содержанию и деталям.
#мысли
🤖 м и ш и н л е р н и н г
Я озвучу основную мысль из этого блог поста, а потом немного разовью ее. Мысль наивная, но все же:
Диффузионные модели — это автоэнкодеры. Особенно, если немного прищуришься.
Что еще можно сказать про диффузионные модели:
▪️Обучение скор-функции ∇x log p(x) распределения сводится к предсказанию денойзинга распределения, которое изначально зашумили. Это супер просто — не нужно городить никаких сложных концепций, десяков лоссов, контролировать сходимость и ухищряться.
▪️В сравнении с вариационными автоэнкодерами (VAE), диффузиям не просто не нужно делать боттлнэк с репараметризациями или прчими vq-, gumbel- приколами, а вообще не нужно делать боттлнэк!
▪️На разных этапах денойзинга модель может сосредоточиться на разных задачах:
— на ранних шагах заниматься формой объектов
— на поздних прорисовывать детали
К чему я это веду? К тому "Почему Диффузии круче, чем VAE для обучения генеративок?"
1) Диффузу не нужен боттлнэк.
А без него намного проще обучать. Не нужно накладывать ограничения на глубину и размер, на vq-словарь и прочее, занимать репараметризацией. А вдобавок можно кидать резидиулы, делая полноценный юнет. И вот это все вместе прям очень-очень упрощает сходимость!
2) Многопроходные подходы лучше однопроходных.
Однопроходные сети (VAE, GAN) должны решить задачу генерации (или проявки изображения) за, простите за тавтологию, один forward pass. Диффузии же делают от 50 до 4000 шагов, имея возможность постепенно переходить от генерации формы к содержанию и деталям.
#мысли
🤖 м и ш и н л е р н и н г
👍53🐳5💯5🔥4🌚2⚡1🏆1
❤️🔥 AudioGen: нейросеть для генерации аудио по текстовому описанию
Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!
Как отметил Александр Шульгин,альфа-метилированные триптамины AudioGEN можно рассматривать как триптаминовые гомологи амфетамина аудиальный гомолог визуального DALL-E 1. И действительно, Александр Шульгин тут очень точно подметил!
Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.
1) Сначала аудио конвертируется при помощи VAE в латент.
2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.
Результаты — WOW, писать можно долго, но это надо слушать.
📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?
🤖 м и ш и н л е р н и н г
Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!
Как отметил Александр Шульгин,
Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.
1) Сначала аудио конвертируется при помощи VAE в латент.
2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.
Результаты — WOW, писать можно долго, но это надо слушать.
📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?
🤖 м и ш и н л е р н и н г
🔥54👍4❤🔥2👌2💯2⚡1🙏1🏆1💋1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 IMAGEN VIDEO — Диффузии уже не остановить!
tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!
Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖
Ну, а если чуть подробнее:
— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps
Основной фишкой такого подхода является Video U-Net — архитектура видео-юнет, пространственные операции которого выполняются независимо по кадрам с общими параметрами (батч х время, высота, ширина, каналы), тогда как временные операции работают уже по всему 5-ти мерному тензору (батч, время, высота, ширина, каналы).
Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!
🚀 Imagen Video
📄 paper
🤖 м и ш и н л е р н и н г
tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!
Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖
Ну, а если чуть подробнее:
— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps
Основной фишкой такого подхода является Video U-Net — архитектура видео-юнет, пространственные операции которого выполняются независимо по кадрам с общими параметрами (батч х время, высота, ширина, каналы), тогда как временные операции работают уже по всему 5-ти мерному тензору (батч, время, высота, ширина, каналы).
Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!
🚀 Imagen Video
📄 paper
🤖 м и ш и н л е р н и н г
🔥46👍14❤6❤🔥2💋2🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Помните недавний Dream Fusion: Imagen + Nerf? Встречайте Stable-Dreamfusion
Ну что Text-to-3D в массы? И ресерчеру и промпт-инженеру!
👉 https://github.com/ashawkey/stable-dreamfusion
За инфу спасибо Денису 💙💛
🤖 м и ш и н л е р н и н г
Ну что Text-to-3D в массы? И ресерчеру и промпт-инженеру!
👉 https://github.com/ashawkey/stable-dreamfusion
За инфу спасибо Денису 💙💛
🤖 м и ш и н л е р н и н г
👍43😍9❤5🕊3💋2👎1
Допожемо ЗСУ! Сьогодні ця допомога особливо важлива!
🇺🇦 https://savelife.in.ua/en/donate-en/
💳 from Ukraine, from abroad, cryptocurrency
🇺🇦 https://savelife.in.ua/en/donate-en/
💳 from Ukraine, from abroad, cryptocurrency
savelife.in.ua
Donate to Ukraine Army - Come Back Alive Foundation
Come Back Alive Foundation raises funds to help Ukrainian Army. You can donate to Ukraine Army from anywhere in the world via card payments, wire transfers, swift or crypto.
❤168👎38🔥10😍3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🛼 Microsoft представили Designer — первый профессиональный Text-to-Image инструмент основанный на DALL•E2
Представьте, “ламантины группой плещутся на закате”. Или “старый слепой китаец красиво делает свое ушу.” Добавьте artstation и 4K, Выберите шрифты и стили, создавайте открытки, постеры, иллюстрации и слайды за мгновения!
Microsoft 🛼 Designer является частью пакета Office 365! То есть он находится в одном ряду с Microsoft Word, Microsoft Excel, и обладает тесной интеграцией с PowerPoint!
А еще вдумайтесь в то, насколько громкое это название — 🛼 Designer! AI революция наступила, это уже не будущее, это уже сейчас.
И изменения ландшафта рабочих мест — лишь одно проявление этой революции. Такие инструменты как 🛼 Designer привнесут AI в массы и сделают Text-to-Image новым стандартом, новой нормой создания визуального контента.
К тому же поговаривают, что скоро в открытом доступе появитсянечто на голову превосходящее DALL•E 2, не говоря уже о стебле . Так что 🛼 Designer не будет единственным таким инструментом.
🛼 Designer (уже можно оставить заявку)
🤖🎓 м и ш и н л е р н и н г
Представьте, “ламантины группой плещутся на закате”. Или “старый слепой китаец красиво делает свое ушу.” Добавьте artstation и 4K, Выберите шрифты и стили, создавайте открытки, постеры, иллюстрации и слайды за мгновения!
Microsoft 🛼 Designer является частью пакета Office 365! То есть он находится в одном ряду с Microsoft Word, Microsoft Excel, и обладает тесной интеграцией с PowerPoint!
А еще вдумайтесь в то, насколько громкое это название — 🛼 Designer! AI революция наступила, это уже не будущее, это уже сейчас.
И изменения ландшафта рабочих мест — лишь одно проявление этой революции. Такие инструменты как 🛼 Designer привнесут AI в массы и сделают Text-to-Image новым стандартом, новой нормой создания визуального контента.
К тому же поговаривают, что скоро в открытом доступе появится
🛼 Designer (уже можно оставить заявку)
🤖🎓 м и ш и н л е р н и н г
🔥60👍16❤2👎2🐳2⚡1💯1
Помните, я писал, что LAION обучили CLIP-H? Кроме опенсорсной SOTA в Zero-Shot на ImageNet, CLIP можно использовать и для генерации в режиме Classifier-Guidance.
В этом посте хочется чуть рассказать про Classifier-Guidance. Ведь StabilityAI уже добавили эту фишку в свой редактор DreamStudio!
Classifier Guidance — это подход для улучшения генераций уже обученной диффузии. То есть дообучать ничего не нужно. Ну почти. Кроме обученной диффузии, еще нужен классификатор. Но зачем?
Дело тут в том, что DDPM и даже iDDPM не выдают нормальных семплов при генерации. Это одна из проблем диффузии. Семплированию нужно помогать! Без этой помощи у iDDPM на вышло составить конкуренцию BigGAN на ImageNet генерации, а вот Diffusion Models Beat GANs on Image Synthesis вышло! Кроме поиска архитектурного решения: UNet c оптимальным кол-вом residual блоков и атеншн, ключевой идеей стал Classifier Guidance.
DDPM предсказывает µ шума, который нужно убрать из картинки. iDDPM, кроме mean предиктят еще и Σ. Рассмотрим на примере генерации кота:
1) Предскажем µ и Σ зашумленного изображения x_t в момент (шаг диффузии) времени t
2) Подадим x_t на классификатор Pφ, и получим градиенты (по сути deep-dream-like градиенты) от класса y (кот) по входу:
grads = ∇x_t log Pφ(y|x_t)
3) Получим новый mean µ_new как сумму µ и Σ*grads. Смысл тут такой: µ (mean) это то, что нужно задейнозить по мнению диффузии, а grads то, что нужно изменить по мнению классификатора. Кстати, Σ предсказывает разброс в котором можно сэмплироваться, и логично использовать Σ для скейла градиентов:
µ_new = µ + Σ * grads
А что делать чтобы генерировать по текстовому описанию? Использовать zero-shot классификатор CLIP!
Конечно в таком подходе мы упираемся в понимание текста самим CLIP'ом, но для таких моделей как Stable Diffusion знания CLIP сильно помогают. см картинки
@ м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤4🔥3❤🔥2🏆2
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Всем любителям нейро-музыки – тут выкатили клевую генерацию аудио в реалтайме, веса, и инстуркцию как на своих данных доучить алгоритм 🌚
Даже в LoFi умеет
Код: https://github.com/marcoppasini/musika
Онлайн демка: https://huggingface.co/spaces/marcop/musika
Даже в LoFi умеет
Код: https://github.com/marcoppasini/musika
Онлайн демка: https://huggingface.co/spaces/marcop/musika
😍22⚡3👍3❤🔥2👎2🔥2
Forwarded from AI для Всех
Нейрокомпрессия звука
Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.
Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.
Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.
Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.
Pied Piper только что стал реальностью, более того - опенсорсной.
🦦 Блог-пост
📖 Статья
🤤 Код
Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.
Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.
Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.
Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.
Pied Piper только что стал реальностью, более того - опенсорсной.
🦦 Блог-пост
📖 Статья
🤤 Код
🔥111❤🔥10👍8💯3👌2