gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
"Because of the cumbersomeness of task specific classification heads, we strongly do not recommend using this class of autoencoding models moving forward and consider them somewhat deprecated. Caveats do apply."
Сегодня Гугл рассказал про свои свежие AI-разработки на ивенте AI@ '22:
https://www.youtube.com/watch?v=X5iLF-cszu0

Обсудили три горячие темы: AI for Social Good, AI for Creativity и AI for Language Inclusivity. Всё с фокусом на responsibility, AI principles и ближайшее будущее. По мне так довольно хорошее саммари того, что происходит и что важного за последний год опубликовали и сделали. В каком-то смысле, наверное, это ответ компании на их сложные шумные истории с командами вокруг этики ИИ (https://news.1rj.ru/str/gonzo_ML/1017, https://news.1rj.ru/str/gonzo_ML/1071).

В AI for Social Good много проектов вокруг climate forecasting, про затопления и пожары. И само собой про здоровье.

В AI for Creativity много всего.

В тексте прикольный проект Wordcraft Writers Workshop (https:/wordcraft-writers-workshop.appspot.com/), где мясные авторы с помощью LaMDA со-творили истории.

В коде есть свой автокомплит (не понял, насколько чисто внутренний), а в звуке GPT-подобная AudioLM (мне, кстати, кажется, что потенциал таких звуковых моделей сильно недооценён, их затмили текстовые модели, где всё проще и которых больше, но со звуком могут быть свои интересные продуктовые истории).

В изображениях -- старые добрые Imagen (https://news.1rj.ru/str/gonzo_ML/980) и Patri, зачётные DreamBooth (https://dreambooth.github.io/), где можно взять чьё-то фото и сделать с ним много творческих манипуляций, и DreamFusion (https://dreamfusion3d.github.io/), умеющий создавать 3D модели.

Классные проекты про видео, особенно Phenaki + Imagen video combination, где генерится консистентное видео по последовательности промптов -- это уже генерация видео по сценарию в зачатке. Посмотрите на эту своеобразную "The Mother of All Demos", здесь просвечивают контуры будущего.

Также есть интересный апп AI Test Kitchen (https://blog.google/technology/ai/join-us-in-the-ai-test-kitchen/).

В AI for Language Inclusivity большой фокус на расширение списка поддерживаемых языков. На IO уже объявляли +24 новых языка и они действительно выехали в прод (https://www.facebook.com/intentoco/photos/a.1093842744008324/5666061383453081/), также в работе проект 1000 languages initiative с фокусом на мультимодальность. Из особо интересного для меня это голосовая Universal Speech Model с поддержкой 400+ (!) языков. Также обещано проникновение мультиязычности во множество продуктов, что классно.

И много, много разговоров про открытость, responsibility, beneficial AI, risks and challenges. Что безусловно важно. Очень важно.

Посмотрите в общем видео, всего час.
👍173🔥2
“What We Owe The Future”
William MacAskill
https://amzn.to/3fyoMbk

Очередной нестандартный формат, на этот раз про книги.

Сейчас читаю интересную книгу “What We Owe The Future” (https://amzn.to/3fyoMbk), от William MacAskill. Четвёртая глава книги про Value Lock-in довольно сильно затрагивает тему про AGI.

Value Lock-in -- событие, приводящее к застреванию в какой-то системе ценностей, которая может установиться на очень долгое время, возможно экстремально долгое. Это сильно влияет на набор возможных и доступных будущих, к которым может прийти (или соответственно уже не прийти) общество.

Исторически мораль и ценности менялись со временем, например, ещё сравнительно недавно рабство массово считалось совершенно нормальным (и этому кейсу посвящена предыдущая, третья глава книги). Нет оснований считать, что наша текущая мораль -- это финальная точка и верх совершенства, и многие события в мире это вполне подтверждают. Так что, вероятно, ей есть куда улучшаться и лок на текущее её состояние -- это не то, что нам надо. Как, например, лок на текущую мораль ещё сравнительно недавнего прошлого с рабовладением, притеснением не-белых рас или сильным ограничением прав женщин был бы по современным меркам ужасным (а кому-то и сейчас это норм...). Наверняка так же будет и с нашими текущими ценностями в будущем. Наши институты должны способствовать моральному прогрессу, а для этого нужно сохранять разнообразие и конкуренцию.

На примере китайских школы мысли автор показывает как та или иная идеология (например, конфуцианство или легизм) становилась господствующей идеологией на долгое время. Конфуцианство, например, продержалось более тысячи лет. Другие школы и идеологии при этом часто сильно притеснялись, вплоть до уничтожения. И вообще многие идеологии стремятся к доминированию, так что lock-in для них даже желателен. Мы в целом уже в каких-то местах относительно залочены -- Homo sapiens вытеснил все конкурирующие виды, колониализм и глобализация привели к вестернизации многих стран. А ещё в каких-то местах разные аспекты нашей жизни и устройство мира в 21 веке по-прежнему определяют идеологии давнего прошлого.

Автор опасается, что value lock-in, который может произойти в этом веке, может продержаться намного дольше, возможно бесконечно. Сейчас мы находимся в аналоге периода “Ста школ китайской мысли”, когда было большое культурное разнообразие и разные школы эволюционировали и соревновались между собой (до того, как произошёл лок сначала на легизм, а потом на конфуцианство). Развитие технологий может привести к концу этого периода разнообразия. И ключевая технология здесь -- искусственный интеллект.

Разработка AGI может иметь эпохальное значение по двум причинам.

Во-первых, он может существенно ускорить технологический прогресс и экономический рост. Например, увеличивая размер экономики, плодя новых ИИ-работников -- здесь всё будет ограничиваться скоростью, с которой этих работников можно создавать. Если эти работники ещё и будут со временем улучшать свою производительность, то в пределе мы упрёмся только в физические лимиты. AGI также может автоматизировать процесс технологических инноваций и запустить цикл положительной обратной связи. Хотя, конечно, там есть ограничители в виде производства чипов, добычи минералов и строительства электростанций. Но всё равно следует всерьёз рассматривать возможность оказаться в ситуации, когда экономика удваивается за месяцы или годы, а не за десятилетия. На самом деле она и так растёт экспоненциально и эта скорость исторически увеличивается, просто периоды удвоения были очень большими относительно человеческой жизни.
🔥22👍19🤔4👎31🐳1💯1
Во-вторых, AGI потенциально долгоживущ. Агенты могут не зависеть от железа, копироваться без ошибок на новые носители, и быть потенциально бессмертными. И люди могут разными способами расширить влияние своих ценностей на будущее: создать AGI агентов, действующих от их имени и с близко выравненными целями; вообще цели могут быть захардкожены; кроме того люди потенциально могут научиться делать “upload” путём сканирования мозга и дальнейшей эмуляции на компьютере. Тема про бессмертие где-то содержательно очень сильно связана со всем этим, и lock-in может быть побочным эффектом этой темы. Многие правители, авторитарные и тоталитарные режимы активно копали в эту сторону, и при удачном для них раскладе мог бы случиться lock-in на их ценности, а также концентрация власти. [У меня, кстати, в отличие от Миши Батина, пока нет для себя чёткого ответа на вопрос, почему технологии бессмертия не усилят возможные диктатуры -- я опасаюсь, что усилят. То же самое с AI/AGI. И в этом смысле тру специалист по AGI (или скорее уже команда, потому что сложно в одну голову это всё вместить) в моём понимании кроме технических скиллов должен хорошо владеть историей, экономикой, политикой, биологией и разными их поддисциплинами] AGI может привести к сильному перераспределению власти и при плохом раскладе привести к локу на плохие для многих ценности.

При этом есть ещё и отдельный риск, что AI может взять себе контроль. Это не обязательно должно приводить к вымиранию человечества (всех шимпанзе или муравьёв люди таки не истребили, может быть будем существовать аналогично). Цивилизация вполне может продолжиться, может даже на миллиарды лет, и открытый вопрос, насколько она будет хороша или плоха. Вопрос, чья это будет цивилизация. В любом случае будут какие-то интеллектуальные существа, и плохо, если они окажутся в мире с залоченными плохими ценностями. Лучше если бы ценности будущего были open-minded, экуменическими и поощряли exploration в морали.

Но ещё лучше, чтобы лока не было вообще. Потому что с одной стороны это позволит избежать застревания в ущербных ценностях (вряд ли текущие ценности совершенны), а с другой устраняется стимул для гонки, кто будет первым.

Сколько ещё до AGI вопрос открытый. Известно, что экспоненциальный прогресс сложно ухватить и понять, даже если тренды на виду. Тем более сложно с сверхэкспоненциальным прогрессом. Есть много разных оценок, от немалого шанса через 10-15 лет, до следующего века. Автор считает, что не стоит опускаться ниже 10% шанса в течение следующих 50 лет, а это вполне реальный шанс получить крайне серьёзные изменения и одну из самых важных разработок в человеческой истории при нашей жизни.

Такие дела. Книга любопытная, буду читать дальше. Огромная библиография (https://whatweowethefuture.com/bibliography/) и комментарии (https://whatweowethefuture.com/notes/), интересные supplementary (https://whatweowethefuture.com/supplementary-materials/).

#books #AGI #longevity #longtermism
👍24🔥15🤔4🥴21
The 5th chapter of my book, "JAX in Action," is ready and available in MEAP! It is the chapter about compilation.

http://mng.bz/nN4a

The chapter covers:
🗺- Just-in-Time (JIT) compilation
🔬- JIT internals: jaxpr, the JAX intermediate language
⚡️- XLA, Google’s Accelerated Linear Algebra compiler, and HLO, High Level Operations Intermediate Representation
💪- MLIR, Multi-Level Intermediate Representation, and MHLO
- The recently appeared Ahead-of-Time (AOT) compilation
🚧- JIT limitations

P.S. Your feedback is welcome! The previous four chapters are adjusted based on your feedback and will be updated soon.
🔥26👍5😁1
"One secret to success was Zlokapa, a waifish orchestra kid who joined Spiropulu’s research group as a Caltech undergrad. A gifted programmer, Zlokapa mapped the particle interactions of the SYK model onto the connections between neurons of a neural network, and trained the system to delete as many network connections as possible while preserving a key wormhole signature. The procedure reduced the number of four-way interactions from hundreds down to five."
👍13
[Google UL2R] Transcending Scaling Laws with 0.1% Extra Compute
Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, Mostafa Dehghani
Статья: https://arxiv.org/abs/2210.11399
Пост в блоге: https://ai.googleblog.com/2022/11/better-language-models-without-massive.html

Продолжение темы про UL2 (https://news.1rj.ru/str/gonzo_ML/1113).

Идея простая, давайте продолжим обучение обычной языковой каузальной модели, но с UL2 objective. Это будет стоить 0.1-1% FLOPs от оригинальной модели, и не будет требовать новых датасетов. Новый метод назовём UL2R или UL2Restore.

Берём оригинальную модель PaLM (только декодер, обучается через PrefixLM, https://arxiv.org/abs/2204.02311), уже обученный checkpoint, и тот же самый датасет, на котором её обучали.

Берём стандартные 7 denoiser’ов из UL2. Дальше правда оказывается, что достаточно микса 50% PrefixLM (S-denoiser), 25% Long (extreme) span corruption (X-denoiser), 25% regular span corruption (R-denoiser).

Дообучаем оригинальную 540B PaLM на 20к шагов с батчем 32. Это примерно 1.3B доп.токенов и 0.16% доп.вычислений. Обучается с cosine learning rate decay schedule, где learning rate отжигается с 10E−4 до 10E−6 (низкий постоянный learning rate даёт аналогичный результат).

Эта новая модель называется U-PaLM 540B, на её дообучение уходит 5 дней на 512 TPUv4 чипах. Это примерно $200k в ценах on-demand.

Результаты интересные.

Во-первых, качество существенно растёт при очень малой цене дообучения. Либо вы раза в два быстрее (чем если бы продолжали обучать оригинальную модель) получаете нужное качество, либо достигаете существенно более высокого качества при заданном вычислительном бюджете. Попутно давая новые SoTA в тех местах, где у PaLM были SoTA и раньше.

Во-вторых, U-PaLM даёт emergent abilities (https://news.1rj.ru/str/gonzo_ML/1031) на более мелких масштабах.

В работе много анализа по разным типам задач, но общее место в том, что заметный прогресс за небольшую цену есть практически везде.

Ещё из интересного то, что очень небольшое дообучение языковой модели PaLM в режиме UL2R с новыми objectives про denoising даёт модели возможности по in-filling’у, то есть открывает возможность решения нового класса задач, к которому оригинальная модель не была готова.

Также поведением модели становится можно управлять с помощью специальных токенов режима, использовавшихся в UL2: [NLU], [NLG] и [S2S]. Это влияет на выход модели.

В общем теперь у нас есть простой эффективный способ улучшения качества имеющихся моделей, которые с нуля заново уже так просто не обучишь. Интересно, конечно, как U-PaLM показал бы себя относительно PaLM целиком обученного с помощью UL2.

Интересно также, использовалось ли что-то подобное в последних моделях семейства GPT-3.5 (https://beta.openai.com/docs/model-index-for-researchers/models-referred-to-as-gpt-3-5), включая ChatGPT, и аналогов, а также секретной GPT-4, или их тоже можно улучшить и дальше.

В целом кейс с UL2R хорошо подсвечивает субоптимальность стандартных подходов к обучению языковых моделей.
👍18
Not a paper, but a very cool stuff!

Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!

The book itself is freely available on the internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself have two hard copies of it :)

Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during the bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
🔥32👍13🙏3
GPT-3, InstructGPT, GPT-3.5, ChatGPT, GPT-4, …

Генеративный AI за этот год сильно удивил. Прогресс с изображениями колоссальный (мы писали про это тут и тут). За это время и Midjourney существенно прокачался, и StableDiffusion постоянно обновляется, ещё и Lensa появилась и добавила теме массовости и популярности. Мне лично особенно нравится движуха с генерением кадров из известных фильмов, которые могли бы быть сняты другим режиссёром или в другой культуре (ну вот типа Звёздных Войн Акиры Куросавы). С текстом, похоже, тоже прямо сейчас случается ещё один качественный переход.

Нынешний фаворит — ChatGPT, продолжатель ветки GPT-3 в её текущей версии GPT-3.5 с добавлением RL по аналогии с более ранним InstructGPT.

Генерит прям хорошо, и не только на английском. Весьма достойно и на русском, и не только на человеческом, а, например, на питоне. И более ранние версии уже могли выдавать годное качество (у нас самих есть пример генерации продуктового анонса, где один был написан человеком за немалые деньги и долгое объяснение, а другой сгенерён одной из не самых последних уже GPT-3, и у текста ИИ CTR был в 37 раз выше человеческого), но новая ChatGPT прям приятно удивила (отдельно также ждём когда откроют GPT-4). Недавно один человек с помощью ChatGPT и Midjourney за выходные детскую книжку написал сгенерил и опубликовал на Амазоне. Ещё из свежего интересного есть иерархическая генерация театральных постановок на примере Dramatron’а от DeepMind.

Что интересно, кроме создания контента свежая модель по сути может в некоторых случаях заменять поисковик. Понятны места, где оно ещё косячит.

Во-первых, конечно, модель может безбожно врать. С поисковиками тоже так было и есть, особенно когда индексируются некачественные сайты или мешают злонамеренные акторы. Для GPT контролем источников уже не обойдёшься, придётся, например, воротить отдельные модели, определяющие качество ответа или применять иные способы фактчекинга и постобработки. Для детектирования токсичности и подобных вещей уже есть готовые API, например, от Гугла и OpenAI, а для определения недостоверности, неправильности, и в более широком смысле качества ответа, видимо, будет что-то похожее на новом уровне.

Во-вторых, модель может просто чего-то не знать, либо потому что какая-то специальная область, откуда в обучение ничего не добавляли (или добавляли мало), либо потому что с момента обучения уже что-то поменялось (президентом стал другой, научное открытие только сделали и т.п.). Для этого класса проблем также есть хороший заход — это retrieval-based модели типа WebGPT, которая по факту пользуется текстовым браузером. За последний год было уже несколько крутых результатов, когда модель может чуть ли не поиск Гуглом делать и инкорпорировать его результаты в свой ответ, и следующую радикально лучшую версию GPT, пусть будет SearchGPT, я бы ожидал на этой технологии.

Поисковая сессия по сути может стать ещё больше диалогом с системой. Сейчас приходится это на специальном языке запросов описывать, у которого вообще своя грамматика, а будет совсем естественно. Вспоминается старая байка про историю из поисковых запросов, где автор последовательно уточнял, что ему нужно, завершив всё фразой c “рефераты блять не предлагать”.
🔥28👍64
Кроме поиска и генерации текста есть также интересное движение в сторону совершения действий (actions). WebGPT уже в общем была моделью с действиями, но есть куда всё это дело расширять. Трансформер типа ACT-1 это вполне себе дальнейший возможный шаг. Будет не только искать в вебе, а и разные операции выполнять, в том же Экселе, например, а там и в апишки ходить (ChatGPT уже умеет генерировать код для дергания некоторых апишек).

Слияние Codex, ChatGPT и WebGPT не за горами, на StackOverflow скоро будете ходить уже не вы :) Сейчас там в моменте в обратную сторону проблема — ввели временный запрет на написание ответов через ChatGPT. Следят за чистотой датасета ;)

Это всё не какое-то далёкое будущее. Я удивлюсь, если этого не произойдет в следующем году. Более далёкое будущее — это отдельная интересная тема.

Дизрапшн идёт, стартапов можно ожидать много, разные полезные продукты прямо просятся, и VC явно темой интересуются. Пост Бессемера я уже приводил, вот ещё хороший пост от Секвойи, и a16z тоже пишут. Мы с Флинтом тоже недавно написали чуток.

Вливайтесь в ряды Фурье, короче!
👍18🔥9