gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.71K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Пока совсем кратко. Генеративный ИИ наконец добрался до генерации видео по текстовому промпту. Марк Цукерберг сегодня анонсировал свежую работу (https://www.facebook.com/4/posts/pfbid0zeP5MtjQmg4FpMR4JN3CWsxDgSd71TU1jrThwmTyvy1QFAsfwKgnpZEgpP3z3LD7l/) под названием Make-A-Video.

Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.

Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.

У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).

Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).

Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).

Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/

Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.

Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
👍8🔥5
A golden retriever eating ice cream on a beautiful tropical beach at sunset, high resolution
This media is not supported in your browser
VIEW IN TELEGRAM
7👍5
A dog wearing a Superhero outfit with red cape flying through the sky
More Generative AI

Генеративный AI (https://news.1rj.ru/str/gonzo_ML/1062) вовсю уже вошёл в нашу жизнь.

DALL-E теперь умеет Outpainting (https://openai.com/blog/dall-e-introducing-outpainting/), а с недавнего момента и доступна без waitlist’а (https://openai.com/blog/dall-e-now-available-without-waitlist/).

Августовский релиз Stable Diffusion (https://stability.ai/blog/stable-diffusion-public-release) сильно поменял ландшафт, и эта модель и сама выложена на HuggingFace (https://huggingface.co/spaces/stabilityai/stable-diffusion), и Colab ноутбуки для её использования в наличии (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb), и родной продукт есть (https://beta.dreamstudio.ai/dream), и в Midjourney встроена.

Кристина Каштанова (Кристина, молодец!) недавно зарегистрировала впервые авторские права (https://arstechnica.com/information-technology/2022/09/artist-receives-first-known-us-copyright-registration-for-generative-ai-art/) на комикс, созданный с помощью MJ, а Die Antwoord выложили очередной клип (https://www.youtube.com/watch?v=Cq56o0YH3mE) созданный командой художников под именем Sagans. Sagans незадолго до этого выпустили другой свой клип (https://www.youtube.com/watch?v=kASqM5HTvfY) созданный в том числе и с помощью AI (https://www.unrealengine.com/en-US/spotlights/words-camera-action-creating-an-ai-music-video-with-unreal-engine-5) и технологии Unreal Engine MetaHuman (https://www.unrealengine.com/en-US/metahuman). Три года назад, кстати, про эти работы Epic Games я тоже писал, в тот момент было демо под названием Siren на предыдущей версии UE (https://blog.inten.to/welcome-to-the-simulation-dd0d8cb6534d).

На днях (но по сути конечно же раньше) специализированные модели также добрались до видео (https://news.1rj.ru/str/gonzo_ML/1099) и до трёхмерных объектов (https://dreamfusionpaper.github.io/).

Безусловно, это всё только начало. Мы в лучшем случае попробовали лишь малую долю возможностей этих быстро эволюционирующих новых средств и создали лишь первый процент новых продуктов или работ. Дальше будет ещё веселее.

Одно из направлений, про которое много не говорят, но которое очевидно будет, это генерация взрослого контента. Говорят, эта индустрия поспособствовала продвижению формата VHS, а также интернета и стриминга. Поспособствует и такому вот прикладному AI. Я совсем не удивлюсь, если сейчас в недрах условного порнхаба обучают свои генеративные модели. Даже обычные модели Stable Diffusion кое-что умеют (https://www.facebook.com/groups/stablediffusionaiart/permalink/633378585094046/), что уж там говорить про специализированные.

Мир никогда не будет прежним.
🔥10👍3👎1
Я понимаю, что многим сейчас совсем не до этого, но 11-14 октября пройдёт конференция Google Cloud Next'22.

На конференции много разных треков, есть и про облачный AI & ML, есть практические кейсы компаний, есть лабы по Natural Language, Cloud Vision, и Cloud ML API, есть про запуск распределённого TF, есть много про разные другие аспекты клауда, разработку, devops, есть даже про VC.

Регистрация тут: https://goo.gle/3UhurC1
👍245
The 4th chapter of my book, "JAX in Action," is ready!

https://www.manning.com/books/jax-in-action

It is the chapter on automatic differentiation, autodiff, or AD for short. I think it is the most complex chapter of the book. But it will reward you with a solid understanding of:

🗺- the place AD takes, among other ways of getting derivatives

💪- all the powers and peculiarities of JAX autodiff, the grad() transform, and a family of related functions

🔭- the forward and reverse mode AD, with the jvp() and vjp() transforms

BTW, the 5th chapter about the JIT compilation is on its way! It is also about Jaxpr, XLA, and AOT compilation.

P.S. Your feedback is welcome!

#jax #DeepLearning #AI
👍27🔥16❤‍🔥2
High-speed water interconnect detected! Hydraulic power! 💪
❤‍🔥12🐳2
Не обзор, но тоже про статьи :)

Мне тут подарили классный артефакт — экземпляр основополагающей статьи 2004 года про MapReduce, подписанный одним из авторов, Джеффом Дином.

Пользуясь случаем хочу сказать, вливайтесь в ряды GDE ML!

https://developers.google.com/community/experts
🔥566👍3😁2
UL2: Unifying Language Learning Paradigms
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
Статья: https://arxiv.org/abs/2205.05131
Пост в блоге: https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html
Модели: https://github.com/google-research/google-research/tree/master/ul2
HF: https://huggingface.co/google/ul2

Мы как-то про гугловую модель UL2 не писали, только лишь мельком упомянули однажды (https://news.1rj.ru/str/gonzo_ML/1032), а она того стоит, тем более, что Гугл выложил в свободный доступ чекпойнты лучшей модели с 20B параметров и недавно написал про неё в своём блоге.

В текущем NLP есть множество моделей разных типов (BERT, GPT, T5, …), где смешаны архитектура и pre-training objective, и выбор подходящей модели во многом зависит от решаемой downstream задачи.

В работе авторы задаются вопросом, как предобучить модель, которая будет универсально хороша на множестве разных задач и почему вообще выбор предобученной модели должен зависеть от downstream задачи? Для этого они предлагают фреймворк под названием Unifying Language Learning Paradigms (UL2), отлично себя показывающий на разных задачах и конфигурациях, в то время как многие модели балансируют между заточенностью на файнтюнинг или же на 1-shot генерацию с помощью промптов.

Преимущества универсальной модели понятны: легче развивать и скейлить одну модель, чем множество; хостить тоже проще одну универсальную, чем кучу разных задаче-специфичных. Есть правда и традиционный эволюционный консёрн про разнообразие, которое очень ценно поддерживать, но это мы, видимо, снова вспомним на следующем витке развития.

Авторы отделяют архитектуру от pre-training objective, которые часто перемешаны.

С точки зрения архитектур, encoder-only модели типа BERT’а фактически объявлены в какой-то степени deprecated, потому что весьма ограничены в генерации, а задаче-специфичные головы громоздки (и вероятно единственная причина, когда они нужны, это регрессия). Получается, реальный выбор должен быть между decoder-only и encoder-decoder моделями, и дальше в работе сравнивают эти две архитектуры. Из очевидных различий здесь требование x2 параметров у последних относительно первых. Есть конечно некоторая разница с точки зрения inductive biases и процесса построения репрезентаций, но не факт, что очень существенная.

С точки зрения pre-training objectives, есть стандартная Causal LM objective для имитации авторегрессионной генерации, часто используемая в decoder-only моделях типа GPT. Есть более гибкая Prefix LM, когда внутри промпта паттерн внимания не causal (слева-направо), а полный (все смотрят на всех) -- это как бы эмуляция encoder+decoder внутри одного трансформера. Для encoder-decoder в своё время в работе про T5 исследовали кучу objectives и показали, что там хорошо работает span corruption. Есть также подходы типа UniLM (https://arxiv.org/abs/1905.03197), когда один трансформер обучается на разных типах задач каждая со своей маской self-attention.

Подход UL2 основан на наблюдении, что большинство pre-training objectives отличаются типом контекста, которым обусловливается модель. Например, span corruption использует двунаправленный контекст и как бы может заглядывать в будущее, в отличие от языковых и префиксных языковых моделей. И в целом одну pre-training objective можно свести к другой.

Суть UL2 в новой pre-training objective под названием Mixture-of-Denoisers (MoD).

MoD -- это смесь устоявшихся и новых denoising objectives, а именно:

* R-denoising (regular denoising), обычный span corruption из T5 с короткими span’ами (2-5 токенов) и низкой частотой затирания (15%).
* X-denoising (extreme denoising) с длинными испорченными сегментами (≥12 токенов) или высокой частотой затирания (≥30%)
* S-denoising (sequential denoising), вариант строго соблюдающий каузальность, когда надо сгенерить продолжение текста по промпту, но имеющий двунаправленное внимание внутри самого промпта (как в PrefixLM).
👍15