gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.71K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Пока совсем кратко. Генеративный ИИ наконец добрался до генерации видео по текстовому промпту. Марк Цукерберг сегодня анонсировал свежую работу (https://www.facebook.com/4/posts/pfbid0zeP5MtjQmg4FpMR4JN3CWsxDgSd71TU1jrThwmTyvy1QFAsfwKgnpZEgpP3z3LD7l/) под названием Make-A-Video.

Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.

Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.

У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).

Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).

Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).

Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/

Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.

Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
👍8🔥5
A golden retriever eating ice cream on a beautiful tropical beach at sunset, high resolution
This media is not supported in your browser
VIEW IN TELEGRAM
7👍5
A dog wearing a Superhero outfit with red cape flying through the sky
More Generative AI

Генеративный AI (https://news.1rj.ru/str/gonzo_ML/1062) вовсю уже вошёл в нашу жизнь.

DALL-E теперь умеет Outpainting (https://openai.com/blog/dall-e-introducing-outpainting/), а с недавнего момента и доступна без waitlist’а (https://openai.com/blog/dall-e-now-available-without-waitlist/).

Августовский релиз Stable Diffusion (https://stability.ai/blog/stable-diffusion-public-release) сильно поменял ландшафт, и эта модель и сама выложена на HuggingFace (https://huggingface.co/spaces/stabilityai/stable-diffusion), и Colab ноутбуки для её использования в наличии (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb), и родной продукт есть (https://beta.dreamstudio.ai/dream), и в Midjourney встроена.

Кристина Каштанова (Кристина, молодец!) недавно зарегистрировала впервые авторские права (https://arstechnica.com/information-technology/2022/09/artist-receives-first-known-us-copyright-registration-for-generative-ai-art/) на комикс, созданный с помощью MJ, а Die Antwoord выложили очередной клип (https://www.youtube.com/watch?v=Cq56o0YH3mE) созданный командой художников под именем Sagans. Sagans незадолго до этого выпустили другой свой клип (https://www.youtube.com/watch?v=kASqM5HTvfY) созданный в том числе и с помощью AI (https://www.unrealengine.com/en-US/spotlights/words-camera-action-creating-an-ai-music-video-with-unreal-engine-5) и технологии Unreal Engine MetaHuman (https://www.unrealengine.com/en-US/metahuman). Три года назад, кстати, про эти работы Epic Games я тоже писал, в тот момент было демо под названием Siren на предыдущей версии UE (https://blog.inten.to/welcome-to-the-simulation-dd0d8cb6534d).

На днях (но по сути конечно же раньше) специализированные модели также добрались до видео (https://news.1rj.ru/str/gonzo_ML/1099) и до трёхмерных объектов (https://dreamfusionpaper.github.io/).

Безусловно, это всё только начало. Мы в лучшем случае попробовали лишь малую долю возможностей этих быстро эволюционирующих новых средств и создали лишь первый процент новых продуктов или работ. Дальше будет ещё веселее.

Одно из направлений, про которое много не говорят, но которое очевидно будет, это генерация взрослого контента. Говорят, эта индустрия поспособствовала продвижению формата VHS, а также интернета и стриминга. Поспособствует и такому вот прикладному AI. Я совсем не удивлюсь, если сейчас в недрах условного порнхаба обучают свои генеративные модели. Даже обычные модели Stable Diffusion кое-что умеют (https://www.facebook.com/groups/stablediffusionaiart/permalink/633378585094046/), что уж там говорить про специализированные.

Мир никогда не будет прежним.
🔥10👍3👎1
Я понимаю, что многим сейчас совсем не до этого, но 11-14 октября пройдёт конференция Google Cloud Next'22.

На конференции много разных треков, есть и про облачный AI & ML, есть практические кейсы компаний, есть лабы по Natural Language, Cloud Vision, и Cloud ML API, есть про запуск распределённого TF, есть много про разные другие аспекты клауда, разработку, devops, есть даже про VC.

Регистрация тут: https://goo.gle/3UhurC1
👍245
The 4th chapter of my book, "JAX in Action," is ready!

https://www.manning.com/books/jax-in-action

It is the chapter on automatic differentiation, autodiff, or AD for short. I think it is the most complex chapter of the book. But it will reward you with a solid understanding of:

🗺- the place AD takes, among other ways of getting derivatives

💪- all the powers and peculiarities of JAX autodiff, the grad() transform, and a family of related functions

🔭- the forward and reverse mode AD, with the jvp() and vjp() transforms

BTW, the 5th chapter about the JIT compilation is on its way! It is also about Jaxpr, XLA, and AOT compilation.

P.S. Your feedback is welcome!

#jax #DeepLearning #AI
👍27🔥16❤‍🔥2
High-speed water interconnect detected! Hydraulic power! 💪
❤‍🔥12🐳2
Не обзор, но тоже про статьи :)

Мне тут подарили классный артефакт — экземпляр основополагающей статьи 2004 года про MapReduce, подписанный одним из авторов, Джеффом Дином.

Пользуясь случаем хочу сказать, вливайтесь в ряды GDE ML!

https://developers.google.com/community/experts
🔥566👍3😁2
UL2: Unifying Language Learning Paradigms
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
Статья: https://arxiv.org/abs/2205.05131
Пост в блоге: https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html
Модели: https://github.com/google-research/google-research/tree/master/ul2
HF: https://huggingface.co/google/ul2

Мы как-то про гугловую модель UL2 не писали, только лишь мельком упомянули однажды (https://news.1rj.ru/str/gonzo_ML/1032), а она того стоит, тем более, что Гугл выложил в свободный доступ чекпойнты лучшей модели с 20B параметров и недавно написал про неё в своём блоге.

В текущем NLP есть множество моделей разных типов (BERT, GPT, T5, …), где смешаны архитектура и pre-training objective, и выбор подходящей модели во многом зависит от решаемой downstream задачи.

В работе авторы задаются вопросом, как предобучить модель, которая будет универсально хороша на множестве разных задач и почему вообще выбор предобученной модели должен зависеть от downstream задачи? Для этого они предлагают фреймворк под названием Unifying Language Learning Paradigms (UL2), отлично себя показывающий на разных задачах и конфигурациях, в то время как многие модели балансируют между заточенностью на файнтюнинг или же на 1-shot генерацию с помощью промптов.

Преимущества универсальной модели понятны: легче развивать и скейлить одну модель, чем множество; хостить тоже проще одну универсальную, чем кучу разных задаче-специфичных. Есть правда и традиционный эволюционный консёрн про разнообразие, которое очень ценно поддерживать, но это мы, видимо, снова вспомним на следующем витке развития.

Авторы отделяют архитектуру от pre-training objective, которые часто перемешаны.

С точки зрения архитектур, encoder-only модели типа BERT’а фактически объявлены в какой-то степени deprecated, потому что весьма ограничены в генерации, а задаче-специфичные головы громоздки (и вероятно единственная причина, когда они нужны, это регрессия). Получается, реальный выбор должен быть между decoder-only и encoder-decoder моделями, и дальше в работе сравнивают эти две архитектуры. Из очевидных различий здесь требование x2 параметров у последних относительно первых. Есть конечно некоторая разница с точки зрения inductive biases и процесса построения репрезентаций, но не факт, что очень существенная.

С точки зрения pre-training objectives, есть стандартная Causal LM objective для имитации авторегрессионной генерации, часто используемая в decoder-only моделях типа GPT. Есть более гибкая Prefix LM, когда внутри промпта паттерн внимания не causal (слева-направо), а полный (все смотрят на всех) -- это как бы эмуляция encoder+decoder внутри одного трансформера. Для encoder-decoder в своё время в работе про T5 исследовали кучу objectives и показали, что там хорошо работает span corruption. Есть также подходы типа UniLM (https://arxiv.org/abs/1905.03197), когда один трансформер обучается на разных типах задач каждая со своей маской self-attention.

Подход UL2 основан на наблюдении, что большинство pre-training objectives отличаются типом контекста, которым обусловливается модель. Например, span corruption использует двунаправленный контекст и как бы может заглядывать в будущее, в отличие от языковых и префиксных языковых моделей. И в целом одну pre-training objective можно свести к другой.

Суть UL2 в новой pre-training objective под названием Mixture-of-Denoisers (MoD).

MoD -- это смесь устоявшихся и новых denoising objectives, а именно:

* R-denoising (regular denoising), обычный span corruption из T5 с короткими span’ами (2-5 токенов) и низкой частотой затирания (15%).
* X-denoising (extreme denoising) с длинными испорченными сегментами (≥12 токенов) или высокой частотой затирания (≥30%)
* S-denoising (sequential denoising), вариант строго соблюдающий каузальность, когда надо сгенерить продолжение текста по промпту, но имеющий двунаправленное внимание внутри самого промпта (как в PrefixLM).
👍15
Всё это реализуется через общую функцию SpanCorrupt(µ, r, n), где µ это средняя длина спана, r -- частота затирания, n -- число попорченных спанов.

Финальная objective это микс из 7 денойзеров (2*R, S, 4*X) смешиваемых равномерно. Обычную LM (causal LM) в микс не включали, потому что это специальный кейс Prefix LM.

Что интересно, по-одиночке эти objectives могут не работать хорошо. В работе про T5 исследовался вариант X-denoising с 50% повреждений, но там он работал плохо. Видимо, сила в миксе.

Также ввели специальный токен, paradigm token, для указания режима работы {[R], [S], [X]} и использовали его в предобучении. У самой большой выложенной модели эти токены заменены соответственно на [NLU], [S2S] и [NLG].

Архитектурно использовался обычный T5-подобный трансформер с современными улучшениями типа SwiGLU или relative attention.

Обучали на корпусе C4, всего примерно 32B токенов. Для сравнения, оригинальный T5 использовал ~34B токенов, Chinchilla обучалась на 1.4T токенов, а многие модели типа GPT-3, LaMDA, Gopher на 168-300B (https://arxiv.org/abs/2203.15556).

Проверялись на 8 NLU задачах из SuperGLUE и 3 датасетах из GEM про генерацию. Везде проверяли supervised fine-tuning и prompt-based one-shot learning.

В качестве бейзлайнов objectives взяты: Causal LM (CLM) как в GPT, Prefix LM (PLM), Span corruption как (SC) в T5, Span corruption + LM в равной пропорции (SCLM) и UniLM (ULM). Пробовали чистый декодер и энкодер-декодер. Encoder с encoder-decoder сравнивать не так просто, они матчатся либо по параметрам, либо по количеству вычислений. Здесь выбрали второй вариант, но тогда параметров в два раза больше у encoder-decoder.

Результаты интересные.

При сравнении с T5 (encoder-decoder) все декодеры ему проиграли, кроме UL2 декодера. А encoder-decoder’ы с разными objectives выигрывали, но UL2 выиграл больше всех и побил T5 на всех 9 задачах. UL2 encoder-decoder выигрывает у просто UL2 decoder.

Если сравнивать с декодерами, то GPT-like вариант с causal LM вообще проиграл всем другим baseline objectives и значительно проиграл UL2. В этом смысле учить классические GPT-like модели оказывается сильно субоптимально.

Также UniLM или span corruption+LM обходит просто span corruption, что ещё одно свидетельство, что смешивать objectives хорошо.

Эти результаты были получены на маленьких модельках 167M (decoder) или 335M (enc-dec), которые затем отскейлили до 0.5B/1B, а потом отдельно обучили encoder-decoder 20B.

Последняя обучалась суммарно на 1T токенов из C4 (уже близко к Шиншилле). В процессе обучения были спайки на кривой лосса, но на это забили, потому что всё равно получили SoTA на 50+ бенчмарках (вероятно, на текущий момент это уже не всё SoTA). Поэтому модель скорее всего может быть ещё лучше, если вложиться в более правильное обучение.

20B модель выложена в открытый доступ. Я только сходу не понял, с какой лицензией. Видимо, Apache 2.0 как у всей репы, то есть с разрешением коммерческого использования.

Любопытная в общем работа, которая как бы депрекейтит часть сделанного в прошлом.
👍10