NEW BOT Телеграм, страница

🦚 DreamFusion: Text-to-3D using 2D Diffusion от ?Google

Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..

🚀 Как работает? Идея супер изящная!

Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.

То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!

Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)

2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию

3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН

4) После чего Имаген предсказывает необходимый денойз

5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель

А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..

👁 gallery
📄 paper
📇 project

🤖 м и ш и н л е р н и н г

🔥23❤6👍4❤‍🔥2

12.9K viewsedited 16:54

Мишин Лернинг

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

♟ Google создал нейросеть, способную создавать 3D модели по текстовому описанию!

А самое крутое то, что самую сложную ее часть даже не нужно было обучать 💖 За основу Text-to-2D взяли Imagen!

🦾 подробнее тут

❤39🔥22👍4🏆4❤‍🔥3

43.5K viewsedited 16:54

Мишин Лернинг

Что круче?

Anonymous Poll

13%

📹 Text-To-Video от MetaAI

28%

🦚 Text-To-3D от Google

59%

🤔 С серьезным лицом посмотреть результат

🐳12🔥6👍3👎1

1.26K voters5.98K views17:13

Мишин Лернинг

☠️ Colab — Все!

Все мы любили колаб. Но увы, ничто не вечно под луной. И теперь можно купить или 100 или 500 compute units, что в переводе на бытовой означает, что колаб сдулся.

~~🪦 Царство небесное, вечн~~ Йисгадал вэйискадаш шмэй рабо..

🤖 м и ш и н л е р н и н г

😢121🙏1

11.3K views11:29

Мишин Лернинг

Полный зал народу
ну убейте уже эту тварь

👍295👎41❤37🙏17🔥13💯11😢7🌚6⚡3❤‍🔥2

6.18K views12:31

Мишин Лернинг

😈

Новояз Машоба

— Генератор и дискриминатор вооруженных сил рф

— Loss продолжил отрицательное падение

— Dropout в рядах вооруженных сил

— Произошел хлопок градиентов

— "CUDA error: out of memory" — Обучение совершило жесткую посадку

— Чистка датасета в фильтрационных лагерях

— Шаг доброй воли по отрицательному направлению к сходимости

— Феномен пропадающих без вести градиентов

— Срочников будут посылать на глубокие обучения

— Параллельный import torch as th

— Превентивный gradient clipping

— Недружественные фреймворки

— Традиционные свертки вместо их нетрадиционных Трансформеров

— Локальные минимумы и седловые точки признаны Экстремистскими

— Показывает все признаки латентного вектора

— 140 миллионов точек Z-пространства

— Специальная градиентная аккумуляция

— Частичная квантизация

— Свой трейн не бросаем (С) Z-вектор Vq-gan'ов

— Денормализация и детокенизация

— RL-алгоритмы признаны иностранными агентами

— Прунинг войск с целью оптимизации

p.s.:
- А в какой концлагерь нас везут?
- Я не знаю, я вне политики.

🤖 м и ш и н л е р н и н г

Please open Telegram to view this post

VIEW IN TELEGRAM

👍98👎36🔥20🕊4⚡3💋3🐳2❤1🌚1

6.34K viewsedited 16:04

Мишин Лернинг

Применит ли хуйло ядерное оружие?

Anonymous Poll

20%

Да, применит

16%

Попытается, но саботируют

31%

Нет, может только блефовать

33%

👍 прищурив глаз, посмотреть на результат

🕊60👎46👍9❤‍🔥5

2.15K voters6.07K views16:38

Мишин Лернинг

🤷‍♀️ 55% подписчиков считают, что бункерный применит ядерное оружие

(да применит + попытается) / (все - посмотреть результат)

окей, пошёл работать дальше

🕊86👎21🌚11👍6😢2😍2🏆2⚡1🐳1💋1

6.1K viewsedited 17:02

Мишин Лернинг

👾 Мысли вслух про диффузионные модели

Я озвучу основную мысль из этого блог поста, а потом немного разовью ее. Мысль наивная, но все же:

Диффузионные модели — это автоэнкодеры. Особенно, если немного прищуришься.

Что еще можно сказать про диффузионные модели:

▪️Обучение скор-функции ∇x log p(x) распределения сводится к предсказанию денойзинга распределения, которое изначально зашумили. Это супер просто — не нужно городить никаких сложных концепций, десяков лоссов, контролировать сходимость и ухищряться.

▪️В сравнении с вариационными автоэнкодерами (VAE), диффузиям не просто не нужно делать боттлнэк с репараметризациями или прчими vq-, gumbel- приколами, а вообще не нужно делать боттлнэк!

▪️На разных этапах денойзинга модель может сосредоточиться на разных задачах:
— на ранних шагах заниматься формой объектов
— на поздних прорисовывать детали

К чему я это веду? К тому "Почему Диффузии круче, чем VAE для обучения генеративок?"

1) Диффузу не нужен боттлнэк.

А без него намного проще обучать. Не нужно накладывать ограничения на глубину и размер, на vq-словарь и прочее, занимать репараметризацией. А вдобавок можно кидать резидиулы, делая полноценный юнет. И вот это все вместе прям очень-очень упрощает сходимость!

2) Многопроходные подходы лучше однопроходных.

Однопроходные сети (VAE, GAN) должны решить задачу генерации (или проявки изображения) за, простите за тавтологию, один forward pass. Диффузии же делают от 50 до 4000 шагов, имея возможность постепенно переходить от генерации формы к содержанию и деталям.

#мысли

🤖 м и ш и н л е р н и н г

👍53🐳5💯5🔥4🌚2⚡1🏆1

6.27K viewsedited 20:24

Мишин Лернинг

❤️‍🔥 AudioGen: нейросеть для генерации аудио по текстовому описанию

Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!

Как отметил Александр Шульгин, ~~альфа-метилированные триптамины~~ AudioGEN можно рассматривать как ~~триптаминовые гомологи амфетамина~~ аудиальный гомолог визуального DALL-E 1. И действительно, Александр Шульгин тут очень точно подметил!

Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.

1) Сначала аудио конвертируется при помощи VAE в латент.

2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.

Результаты — WOW, писать можно долго, но это надо слушать.

📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?

🤖 м и ш и н л е р н и н г

🔥54👍4❤‍🔥2👌2💯2⚡1🙏1🏆1💋1

7.29K viewsedited 14:41

Мишин Лернинг

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 IMAGEN VIDEO — Диффузии уже не остановить!

tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!

Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖

Ну, а если чуть подробнее:

— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps

Основной фишкой такого подхода является Video U-Net — архитектура видео-юнет, пространственные операции которого выполняются независимо по кадрам с общими параметрами (батч х время, высота, ширина, каналы), тогда как временные операции работают уже по всему 5-ти мерному тензору (батч, время, высота, ширина, каналы).

Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!

🚀 Imagen Video
📄 paper

🤖 м и ш и н л е р н и н г

🔥46👍14❤6❤‍🔥2💋2🏆1

44.5K viewsedited 19:23

Мишин Лернинг

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Помните недавний Dream Fusion: Imagen + Nerf? Встречайте Stable-Dreamfusion

Ну что Text-to-3D в массы? И ресерчеру и промпт-инженеру!

👉 https://github.com/ashawkey/stable-dreamfusion

За инфу спасибо Денису 💙💛

🤖 м и ш и н л е р н и н г

👍43😍9❤5🕊3💋2👎1

10.5K viewsedited 16:39

Мишин Лернинг

Добрий ранок 💖

🔥350👎151❤‍🔥35😍19🕊16😢10💋7👍4🙏3🏆3

6.85K viewsedited 07:17

Мишин Лернинг

Допожемо ЗСУ! Сьогодні ця допомога особливо важлива!

🇺🇦 https://savelife.in.ua/en/donate-en/

💳 from Ukraine, from abroad, cryptocurrency

savelife.in.ua

Donate to Ukraine Army - Come Back Alive Foundation

Come Back Alive Foundation raises funds to help Ukrainian Army. You can donate to Ukraine Army from anywhere in the world via card payments, wire transfers, swift or crypto.

❤168👎38🔥10😍3👍2

6.55K views09:03

Мишин Лернинг

Forwarded from shonenkov AI

🤮

👍116👎43🔥23❤4😢4🌚4😍3🕊2🐳2👌1

6.14K views14:08

Мишин Лернинг

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

🛼 Microsoft представили Designer — первый профессиональный Text-to-Image инструмент основанный на DALL•E2

Представьте, “ламантины группой плещутся на закате”. Или “старый слепой китаец красиво делает свое ушу.” Добавьте artstation и 4K, Выберите шрифты и стили, создавайте открытки, постеры, иллюстрации и слайды за мгновения!

Microsoft 🛼 Designer является частью пакета Office 365! То есть он находится в одном ряду с Microsoft Word, Microsoft Excel, и обладает тесной интеграцией с PowerPoint!

А еще вдумайтесь в то, насколько громкое это название — 🛼 Designer! AI революция наступила, это уже не будущее, это уже сейчас.

И изменения ландшафта рабочих мест — лишь одно проявление этой революции. Такие инструменты как 🛼 Designer привнесут AI в массы и сделают Text-to-Image новым стандартом, новой нормой создания визуального контента.

К тому же поговаривают, что скоро в открытом доступе появится нечто на голову превосходящее DALL•E 2, не говоря уже о стебле. Так что 🛼 Designer не будет единственным таким инструментом.

🛼 Designer (уже можно оставить заявку)

🤖🎓 м и ш и н л е р н и н г

🔥60👍16❤2👎2🐳2⚡1💯1

12.6K views08:04

Мишин Лернинг

🗡️

🔡

🅰️

🔡

🅰️

🔡

Помните, я писал, что LAION обучили CLIP-H? Кроме опенсорсной SOTA в Zero-Shot на ImageNet, CLIP можно использовать и для генерации в режиме Classifier-Guidance.

В этом посте хочется чуть рассказать про Classifier-Guidance. Ведь StabilityAI уже добавили эту фишку в свой редактор DreamStudio!

🥩 К а к р а б о т а е т C l a s s i f i e r G u i d a n c e ?

Classifier Guidance — это подход для улучшения генераций уже обученной диффузии. То есть дообучать ничего не нужно. Ну почти. Кроме обученной диффузии, еще нужен классификатор. Но зачем?

Дело тут в том, что DDPM и даже iDDPM не выдают нормальных семплов при генерации. Это одна из проблем диффузии. Семплированию нужно помогать! Без этой помощи у iDDPM на вышло составить конкуренцию BigGAN на ImageNet генерации, а вот Diffusion Models Beat GANs on Image Synthesis вышло! Кроме поиска архитектурного решения: UNet c оптимальным кол-вом residual блоков и атеншн, ключевой идеей стал Classifier Guidance.

DDPM предсказывает µ шума, который нужно убрать из картинки. iDDPM, кроме mean предиктят еще и Σ. Рассмотрим на примере генерации кота:

1) Предскажем µ и Σ зашумленного изображения x_t в момент (шаг диффузии) времени t

2) Подадим x_t на классификатор Pφ, и получим градиенты (по сути deep-dream-like градиенты) от класса y (кот) по входу:
grads = ∇x_t log Pφ(y|x_t)

3) Получим новый mean µ_new как сумму µ и Σ*grads. Смысл тут такой: µ (mean) это то, что нужно задейнозить по мнению диффузии, а grads то, что нужно изменить по мнению классификатора. Кстати, Σ предсказывает разброс в котором можно сэмплироваться, и логично использовать Σ для скейла градиентов:
µ_new = µ + Σ * grads

А что делать чтобы генерировать по текстовому описанию? Использовать zero-shot классификатор CLIP!

Конечно в таком подходе мы упираемся в понимание текста самим CLIP'ом, но для таких моделей как Stable Diffusion знания CLIP сильно помогают. см картинки

❤️

Попробовать CLIP-Guidance в DreamStudio

@ м и ш и н л е р н и н г

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤4🔥3❤‍🔥2🏆2

11.1K views12:52

Мишин Лернинг

https://youtu.be/1Uy_8YPWrXo

YouTube

Stable Diffusion announcements

Stability AI, which produces Stability Diffusion announced a $100 million investment today and here is its presentation at its event tonight.

It is using AI to enable people to create images by sending text to its AI/Large Language Model.

Learn more at…

🔥29❤‍🔥4👍2❤1

6.66K views18:44

Мишин Лернинг

Forwarded from Denis Sexy IT 🤖

2:19

Media is too big

VIEW IN TELEGRAM

Всем любителям нейро-музыки – тут выкатили клевую генерацию аудио в реалтайме, веса, и инстуркцию как на своих данных доучить алгоритм 🌚

Даже в LoFi умеет

Код: https://github.com/marcoppasini/musika

Онлайн демка: https://huggingface.co/spaces/marcop/musika

😍22⚡3👍3❤‍🔥2👎2🔥2

5.55K views13:15

Мишин Лернинг

Forwarded from AI для Всех

Нейрокомпрессия звука

Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.

Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.

Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.

Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.

Pied Piper только что стал реальностью, более того - опенсорсной.

🦦 Блог-пост
📖 Статья
🤤 Код

🔥111❤‍🔥10👍8💯3👌2

5.55K views20:03

About

Blog

Apps

Platform