gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Я понимаю, что многим сейчас совсем не до этого, но 11-14 октября пройдёт конференция Google Cloud Next'22.

На конференции много разных треков, есть и про облачный AI & ML, есть практические кейсы компаний, есть лабы по Natural Language, Cloud Vision, и Cloud ML API, есть про запуск распределённого TF, есть много про разные другие аспекты клауда, разработку, devops, есть даже про VC.

Регистрация тут: https://goo.gle/3UhurC1
👍245
The 4th chapter of my book, "JAX in Action," is ready!

https://www.manning.com/books/jax-in-action

It is the chapter on automatic differentiation, autodiff, or AD for short. I think it is the most complex chapter of the book. But it will reward you with a solid understanding of:

🗺- the place AD takes, among other ways of getting derivatives

💪- all the powers and peculiarities of JAX autodiff, the grad() transform, and a family of related functions

🔭- the forward and reverse mode AD, with the jvp() and vjp() transforms

BTW, the 5th chapter about the JIT compilation is on its way! It is also about Jaxpr, XLA, and AOT compilation.

P.S. Your feedback is welcome!

#jax #DeepLearning #AI
👍27🔥16❤‍🔥2
High-speed water interconnect detected! Hydraulic power! 💪
❤‍🔥12🐳2
Не обзор, но тоже про статьи :)

Мне тут подарили классный артефакт — экземпляр основополагающей статьи 2004 года про MapReduce, подписанный одним из авторов, Джеффом Дином.

Пользуясь случаем хочу сказать, вливайтесь в ряды GDE ML!

https://developers.google.com/community/experts
🔥566👍3😁2
UL2: Unifying Language Learning Paradigms
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
Статья: https://arxiv.org/abs/2205.05131
Пост в блоге: https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html
Модели: https://github.com/google-research/google-research/tree/master/ul2
HF: https://huggingface.co/google/ul2

Мы как-то про гугловую модель UL2 не писали, только лишь мельком упомянули однажды (https://news.1rj.ru/str/gonzo_ML/1032), а она того стоит, тем более, что Гугл выложил в свободный доступ чекпойнты лучшей модели с 20B параметров и недавно написал про неё в своём блоге.

В текущем NLP есть множество моделей разных типов (BERT, GPT, T5, …), где смешаны архитектура и pre-training objective, и выбор подходящей модели во многом зависит от решаемой downstream задачи.

В работе авторы задаются вопросом, как предобучить модель, которая будет универсально хороша на множестве разных задач и почему вообще выбор предобученной модели должен зависеть от downstream задачи? Для этого они предлагают фреймворк под названием Unifying Language Learning Paradigms (UL2), отлично себя показывающий на разных задачах и конфигурациях, в то время как многие модели балансируют между заточенностью на файнтюнинг или же на 1-shot генерацию с помощью промптов.

Преимущества универсальной модели понятны: легче развивать и скейлить одну модель, чем множество; хостить тоже проще одну универсальную, чем кучу разных задаче-специфичных. Есть правда и традиционный эволюционный консёрн про разнообразие, которое очень ценно поддерживать, но это мы, видимо, снова вспомним на следующем витке развития.

Авторы отделяют архитектуру от pre-training objective, которые часто перемешаны.

С точки зрения архитектур, encoder-only модели типа BERT’а фактически объявлены в какой-то степени deprecated, потому что весьма ограничены в генерации, а задаче-специфичные головы громоздки (и вероятно единственная причина, когда они нужны, это регрессия). Получается, реальный выбор должен быть между decoder-only и encoder-decoder моделями, и дальше в работе сравнивают эти две архитектуры. Из очевидных различий здесь требование x2 параметров у последних относительно первых. Есть конечно некоторая разница с точки зрения inductive biases и процесса построения репрезентаций, но не факт, что очень существенная.

С точки зрения pre-training objectives, есть стандартная Causal LM objective для имитации авторегрессионной генерации, часто используемая в decoder-only моделях типа GPT. Есть более гибкая Prefix LM, когда внутри промпта паттерн внимания не causal (слева-направо), а полный (все смотрят на всех) -- это как бы эмуляция encoder+decoder внутри одного трансформера. Для encoder-decoder в своё время в работе про T5 исследовали кучу objectives и показали, что там хорошо работает span corruption. Есть также подходы типа UniLM (https://arxiv.org/abs/1905.03197), когда один трансформер обучается на разных типах задач каждая со своей маской self-attention.

Подход UL2 основан на наблюдении, что большинство pre-training objectives отличаются типом контекста, которым обусловливается модель. Например, span corruption использует двунаправленный контекст и как бы может заглядывать в будущее, в отличие от языковых и префиксных языковых моделей. И в целом одну pre-training objective можно свести к другой.

Суть UL2 в новой pre-training objective под названием Mixture-of-Denoisers (MoD).

MoD -- это смесь устоявшихся и новых denoising objectives, а именно:

* R-denoising (regular denoising), обычный span corruption из T5 с короткими span’ами (2-5 токенов) и низкой частотой затирания (15%).
* X-denoising (extreme denoising) с длинными испорченными сегментами (≥12 токенов) или высокой частотой затирания (≥30%)
* S-denoising (sequential denoising), вариант строго соблюдающий каузальность, когда надо сгенерить продолжение текста по промпту, но имеющий двунаправленное внимание внутри самого промпта (как в PrefixLM).
👍15
Всё это реализуется через общую функцию SpanCorrupt(µ, r, n), где µ это средняя длина спана, r -- частота затирания, n -- число попорченных спанов.

Финальная objective это микс из 7 денойзеров (2*R, S, 4*X) смешиваемых равномерно. Обычную LM (causal LM) в микс не включали, потому что это специальный кейс Prefix LM.

Что интересно, по-одиночке эти objectives могут не работать хорошо. В работе про T5 исследовался вариант X-denoising с 50% повреждений, но там он работал плохо. Видимо, сила в миксе.

Также ввели специальный токен, paradigm token, для указания режима работы {[R], [S], [X]} и использовали его в предобучении. У самой большой выложенной модели эти токены заменены соответственно на [NLU], [S2S] и [NLG].

Архитектурно использовался обычный T5-подобный трансформер с современными улучшениями типа SwiGLU или relative attention.

Обучали на корпусе C4, всего примерно 32B токенов. Для сравнения, оригинальный T5 использовал ~34B токенов, Chinchilla обучалась на 1.4T токенов, а многие модели типа GPT-3, LaMDA, Gopher на 168-300B (https://arxiv.org/abs/2203.15556).

Проверялись на 8 NLU задачах из SuperGLUE и 3 датасетах из GEM про генерацию. Везде проверяли supervised fine-tuning и prompt-based one-shot learning.

В качестве бейзлайнов objectives взяты: Causal LM (CLM) как в GPT, Prefix LM (PLM), Span corruption как (SC) в T5, Span corruption + LM в равной пропорции (SCLM) и UniLM (ULM). Пробовали чистый декодер и энкодер-декодер. Encoder с encoder-decoder сравнивать не так просто, они матчатся либо по параметрам, либо по количеству вычислений. Здесь выбрали второй вариант, но тогда параметров в два раза больше у encoder-decoder.

Результаты интересные.

При сравнении с T5 (encoder-decoder) все декодеры ему проиграли, кроме UL2 декодера. А encoder-decoder’ы с разными objectives выигрывали, но UL2 выиграл больше всех и побил T5 на всех 9 задачах. UL2 encoder-decoder выигрывает у просто UL2 decoder.

Если сравнивать с декодерами, то GPT-like вариант с causal LM вообще проиграл всем другим baseline objectives и значительно проиграл UL2. В этом смысле учить классические GPT-like модели оказывается сильно субоптимально.

Также UniLM или span corruption+LM обходит просто span corruption, что ещё одно свидетельство, что смешивать objectives хорошо.

Эти результаты были получены на маленьких модельках 167M (decoder) или 335M (enc-dec), которые затем отскейлили до 0.5B/1B, а потом отдельно обучили encoder-decoder 20B.

Последняя обучалась суммарно на 1T токенов из C4 (уже близко к Шиншилле). В процессе обучения были спайки на кривой лосса, но на это забили, потому что всё равно получили SoTA на 50+ бенчмарках (вероятно, на текущий момент это уже не всё SoTA). Поэтому модель скорее всего может быть ещё лучше, если вложиться в более правильное обучение.

20B модель выложена в открытый доступ. Я только сходу не понял, с какой лицензией. Видимо, Apache 2.0 как у всей репы, то есть с разрешением коммерческого использования.

Любопытная в общем работа, которая как бы депрекейтит часть сделанного в прошлом.
👍10
"Because of the cumbersomeness of task specific classification heads, we strongly do not recommend using this class of autoencoding models moving forward and consider them somewhat deprecated. Caveats do apply."
Сегодня Гугл рассказал про свои свежие AI-разработки на ивенте AI@ '22:
https://www.youtube.com/watch?v=X5iLF-cszu0

Обсудили три горячие темы: AI for Social Good, AI for Creativity и AI for Language Inclusivity. Всё с фокусом на responsibility, AI principles и ближайшее будущее. По мне так довольно хорошее саммари того, что происходит и что важного за последний год опубликовали и сделали. В каком-то смысле, наверное, это ответ компании на их сложные шумные истории с командами вокруг этики ИИ (https://news.1rj.ru/str/gonzo_ML/1017, https://news.1rj.ru/str/gonzo_ML/1071).

В AI for Social Good много проектов вокруг climate forecasting, про затопления и пожары. И само собой про здоровье.

В AI for Creativity много всего.

В тексте прикольный проект Wordcraft Writers Workshop (https:/wordcraft-writers-workshop.appspot.com/), где мясные авторы с помощью LaMDA со-творили истории.

В коде есть свой автокомплит (не понял, насколько чисто внутренний), а в звуке GPT-подобная AudioLM (мне, кстати, кажется, что потенциал таких звуковых моделей сильно недооценён, их затмили текстовые модели, где всё проще и которых больше, но со звуком могут быть свои интересные продуктовые истории).

В изображениях -- старые добрые Imagen (https://news.1rj.ru/str/gonzo_ML/980) и Patri, зачётные DreamBooth (https://dreambooth.github.io/), где можно взять чьё-то фото и сделать с ним много творческих манипуляций, и DreamFusion (https://dreamfusion3d.github.io/), умеющий создавать 3D модели.

Классные проекты про видео, особенно Phenaki + Imagen video combination, где генерится консистентное видео по последовательности промптов -- это уже генерация видео по сценарию в зачатке. Посмотрите на эту своеобразную "The Mother of All Demos", здесь просвечивают контуры будущего.

Также есть интересный апп AI Test Kitchen (https://blog.google/technology/ai/join-us-in-the-ai-test-kitchen/).

В AI for Language Inclusivity большой фокус на расширение списка поддерживаемых языков. На IO уже объявляли +24 новых языка и они действительно выехали в прод (https://www.facebook.com/intentoco/photos/a.1093842744008324/5666061383453081/), также в работе проект 1000 languages initiative с фокусом на мультимодальность. Из особо интересного для меня это голосовая Universal Speech Model с поддержкой 400+ (!) языков. Также обещано проникновение мультиязычности во множество продуктов, что классно.

И много, много разговоров про открытость, responsibility, beneficial AI, risks and challenges. Что безусловно важно. Очень важно.

Посмотрите в общем видео, всего час.
👍173🔥2
“What We Owe The Future”
William MacAskill
https://amzn.to/3fyoMbk

Очередной нестандартный формат, на этот раз про книги.

Сейчас читаю интересную книгу “What We Owe The Future” (https://amzn.to/3fyoMbk), от William MacAskill. Четвёртая глава книги про Value Lock-in довольно сильно затрагивает тему про AGI.

Value Lock-in -- событие, приводящее к застреванию в какой-то системе ценностей, которая может установиться на очень долгое время, возможно экстремально долгое. Это сильно влияет на набор возможных и доступных будущих, к которым может прийти (или соответственно уже не прийти) общество.

Исторически мораль и ценности менялись со временем, например, ещё сравнительно недавно рабство массово считалось совершенно нормальным (и этому кейсу посвящена предыдущая, третья глава книги). Нет оснований считать, что наша текущая мораль -- это финальная точка и верх совершенства, и многие события в мире это вполне подтверждают. Так что, вероятно, ей есть куда улучшаться и лок на текущее её состояние -- это не то, что нам надо. Как, например, лок на текущую мораль ещё сравнительно недавнего прошлого с рабовладением, притеснением не-белых рас или сильным ограничением прав женщин был бы по современным меркам ужасным (а кому-то и сейчас это норм...). Наверняка так же будет и с нашими текущими ценностями в будущем. Наши институты должны способствовать моральному прогрессу, а для этого нужно сохранять разнообразие и конкуренцию.

На примере китайских школы мысли автор показывает как та или иная идеология (например, конфуцианство или легизм) становилась господствующей идеологией на долгое время. Конфуцианство, например, продержалось более тысячи лет. Другие школы и идеологии при этом часто сильно притеснялись, вплоть до уничтожения. И вообще многие идеологии стремятся к доминированию, так что lock-in для них даже желателен. Мы в целом уже в каких-то местах относительно залочены -- Homo sapiens вытеснил все конкурирующие виды, колониализм и глобализация привели к вестернизации многих стран. А ещё в каких-то местах разные аспекты нашей жизни и устройство мира в 21 веке по-прежнему определяют идеологии давнего прошлого.

Автор опасается, что value lock-in, который может произойти в этом веке, может продержаться намного дольше, возможно бесконечно. Сейчас мы находимся в аналоге периода “Ста школ китайской мысли”, когда было большое культурное разнообразие и разные школы эволюционировали и соревновались между собой (до того, как произошёл лок сначала на легизм, а потом на конфуцианство). Развитие технологий может привести к концу этого периода разнообразия. И ключевая технология здесь -- искусственный интеллект.

Разработка AGI может иметь эпохальное значение по двум причинам.

Во-первых, он может существенно ускорить технологический прогресс и экономический рост. Например, увеличивая размер экономики, плодя новых ИИ-работников -- здесь всё будет ограничиваться скоростью, с которой этих работников можно создавать. Если эти работники ещё и будут со временем улучшать свою производительность, то в пределе мы упрёмся только в физические лимиты. AGI также может автоматизировать процесс технологических инноваций и запустить цикл положительной обратной связи. Хотя, конечно, там есть ограничители в виде производства чипов, добычи минералов и строительства электростанций. Но всё равно следует всерьёз рассматривать возможность оказаться в ситуации, когда экономика удваивается за месяцы или годы, а не за десятилетия. На самом деле она и так растёт экспоненциально и эта скорость исторически увеличивается, просто периоды удвоения были очень большими относительно человеческой жизни.
🔥22👍19🤔4👎31🐳1💯1
Во-вторых, AGI потенциально долгоживущ. Агенты могут не зависеть от железа, копироваться без ошибок на новые носители, и быть потенциально бессмертными. И люди могут разными способами расширить влияние своих ценностей на будущее: создать AGI агентов, действующих от их имени и с близко выравненными целями; вообще цели могут быть захардкожены; кроме того люди потенциально могут научиться делать “upload” путём сканирования мозга и дальнейшей эмуляции на компьютере. Тема про бессмертие где-то содержательно очень сильно связана со всем этим, и lock-in может быть побочным эффектом этой темы. Многие правители, авторитарные и тоталитарные режимы активно копали в эту сторону, и при удачном для них раскладе мог бы случиться lock-in на их ценности, а также концентрация власти. [У меня, кстати, в отличие от Миши Батина, пока нет для себя чёткого ответа на вопрос, почему технологии бессмертия не усилят возможные диктатуры -- я опасаюсь, что усилят. То же самое с AI/AGI. И в этом смысле тру специалист по AGI (или скорее уже команда, потому что сложно в одну голову это всё вместить) в моём понимании кроме технических скиллов должен хорошо владеть историей, экономикой, политикой, биологией и разными их поддисциплинами] AGI может привести к сильному перераспределению власти и при плохом раскладе привести к локу на плохие для многих ценности.

При этом есть ещё и отдельный риск, что AI может взять себе контроль. Это не обязательно должно приводить к вымиранию человечества (всех шимпанзе или муравьёв люди таки не истребили, может быть будем существовать аналогично). Цивилизация вполне может продолжиться, может даже на миллиарды лет, и открытый вопрос, насколько она будет хороша или плоха. Вопрос, чья это будет цивилизация. В любом случае будут какие-то интеллектуальные существа, и плохо, если они окажутся в мире с залоченными плохими ценностями. Лучше если бы ценности будущего были open-minded, экуменическими и поощряли exploration в морали.

Но ещё лучше, чтобы лока не было вообще. Потому что с одной стороны это позволит избежать застревания в ущербных ценностях (вряд ли текущие ценности совершенны), а с другой устраняется стимул для гонки, кто будет первым.

Сколько ещё до AGI вопрос открытый. Известно, что экспоненциальный прогресс сложно ухватить и понять, даже если тренды на виду. Тем более сложно с сверхэкспоненциальным прогрессом. Есть много разных оценок, от немалого шанса через 10-15 лет, до следующего века. Автор считает, что не стоит опускаться ниже 10% шанса в течение следующих 50 лет, а это вполне реальный шанс получить крайне серьёзные изменения и одну из самых важных разработок в человеческой истории при нашей жизни.

Такие дела. Книга любопытная, буду читать дальше. Огромная библиография (https://whatweowethefuture.com/bibliography/) и комментарии (https://whatweowethefuture.com/notes/), интересные supplementary (https://whatweowethefuture.com/supplementary-materials/).

#books #AGI #longevity #longtermism
👍24🔥15🤔4🥴21