gonzo-обзоры ML статей
Добрая вечная классика: https://www.youtube.com/watch?v=C2vgICfQawE
И в дополнение для тех, кто соскучился, хорошая реализация с каталогом известных интересных конфигураций:
https://playgameoflife.com/
https://playgameoflife.com/
Playgameoflife
Play John Conway’s Game of Life
Play the Game of Life online, a single player game invented in 1970 by Cambridge mathematician John Conway.
👍5🔥2👏1
Hot news!
----------------------------
Today we’re announcing SeamlessM4T, the first all-in-one, multilingual multimodal AI translation model.
Details ➡️ https://bit.ly/45z0e6s
Demo ➡️ https://bit.ly/3YNwm3Z
This single model can perform tasks across speech-to-text, speech-to-speech, text-to-speech, text-to-text translation & speech recognition for up to 100 languages depending on the task. Compared to cascaded approaches, SeamlessM4T's single system reduces errors & delays, increasing translation efficiency and delivering state-of-the-art results.
As part of our open approach, we're publicly releasing this work under a CC BY-NC 4.0 license so that others can continue to build on this important field of study.
----------------------------
Today we’re announcing SeamlessM4T, the first all-in-one, multilingual multimodal AI translation model.
Details ➡️ https://bit.ly/45z0e6s
Demo ➡️ https://bit.ly/3YNwm3Z
This single model can perform tasks across speech-to-text, speech-to-speech, text-to-speech, text-to-text translation & speech recognition for up to 100 languages depending on the task. Compared to cascaded approaches, SeamlessM4T's single system reduces errors & delays, increasing translation efficiency and delivering state-of-the-art results.
As part of our open approach, we're publicly releasing this work under a CC BY-NC 4.0 license so that others can continue to build on this important field of study.
Meta AI
Seamless Communication - Meta AI
SeamlessM4T is a foundational speech/text translation and trannoscription model that overcomes the limitations of previous systems with state-of-the-art results.
❤16🔥13👍6🦄1
И ещё из хороших новостей: теперь можно файнтюнить gpt-3.5-turbo
https://openai.com/blog/gpt-3-5-turbo-fine-tuning-and-api-updates
https://openai.com/blog/gpt-3-5-turbo-fine-tuning-and-api-updates
Openai
GPT-3.5 Turbo fine-tuning and API updates
Developers can now bring their own data to customize GPT-3.5 Turbo for their use cases.
🔥27👍3😁1
Interesting numbers
More than 15 billion images created using text-to-image algorithms since last year. To put this in perspective, it took photographers 150 years, from the first photograph taken in 1826 until 1975, to reach the 15 billion mark.
https://journal.everypixel.com/ai-image-statistics
More than 15 billion images created using text-to-image algorithms since last year. To put this in perspective, it took photographers 150 years, from the first photograph taken in 1826 until 1975, to reach the 15 billion mark.
https://journal.everypixel.com/ai-image-statistics
Everypixel Journal - Your Guide to the Entangled World of AI
AI Image Statistics: How Much Content Was Created by AI
Discover AI image statistics: the total number of AI images, the number of images created with Stable Diffusion, Adobe Firefly, Midjourney, DALL-E 2, and more.
🔥11❤10👍4👎2🤡1
А вот и Code Llama подоспела
https://ai.meta.com/blog/code-llama-large-language-model-coding/
Code Llama is a state-of-the-art LLM capable of generating code, and natural language about code, from both code and natural language prompts.
Code Llama is free for research and commercial use.
Code Llama is built on top of Llama 2 and is available in three models:
- Code Llama, the foundational code model;
- Codel Llama - Python specialized for Python;
- and Code Llama - Instruct, which is fine-tuned for understanding natural language instructions.
In our own benchmark testing, Code Llama outperformed state-of-the-art publicly available LLMs on code tasks
https://ai.meta.com/blog/code-llama-large-language-model-coding/
Code Llama is a state-of-the-art LLM capable of generating code, and natural language about code, from both code and natural language prompts.
Code Llama is free for research and commercial use.
Code Llama is built on top of Llama 2 and is available in three models:
- Code Llama, the foundational code model;
- Codel Llama - Python specialized for Python;
- and Code Llama - Instruct, which is fine-tuned for understanding natural language instructions.
In our own benchmark testing, Code Llama outperformed state-of-the-art publicly available LLMs on code tasks
Meta AI
Introducing Code Llama, a state-of-the-art large language model for coding
Code Llama, which is built on top of Llama 2, is free for research and commercial use.
🔥28❤1👍1
Сегодня для разнообразия гонзо-обзор книги
Книга: Symmetry and the Monster. One of the greatest quests of mathematics
Автор: Mark Ronan
URL: https://global.oup.com/academic/product/symmetry-and-the-monster-9780192807236
Случайно купил в букинистическом книгу про группы симметрии и Монстра. Я даже когда-то знал, что Монстр — это гигантская простая группа (порядка 196883), но в момент покупки книги про всё это забыл и думал, что это просто про теорию групп и симметрии.
Прочитал, прям хорошо. Книга, по сути, описывает историю возникновения теории групп и построения периодической таблицы атомов симметрии (простых конечных групп, которые далее не могут быть разложены на другие группы), а также нахождения 26 исключений (спорадических групп), не вписывающихся в эту таблицу. Монстр (он же Дружественный гигант, но это название не закрепилось) — самый большой (и, кажется, доказанно последний) из исключений. Ссылка в тему: https://youtu.be/mH0oCDa74tE?si=ld9KwGhjZ9JifyyE
Узнал много нового из истории математики. Я как-то был не в курсе, что к этой теме очень сильно приложился Конуэй, я его считал изобретателем игры Жизнь, но и только. А он прям монстр.
Узнал про Moonshine гипотезу (только что узнал, что по-русски её иногда называют Гипотезой чудовищного вздора). Оказывается, размерности Монстра вылезают в неожиданных местах, и в частности вылезли в теории струн. И здесь ещё много непонятного. Ссылка в тему: https://www.quantamagazine.org/mathematicians-chase-moonshine-string-theory-connections-20150312/
Снова захотелосьв Париж нырнуть в абстрактную алгебру.
#books
Книга: Symmetry and the Monster. One of the greatest quests of mathematics
Автор: Mark Ronan
URL: https://global.oup.com/academic/product/symmetry-and-the-monster-9780192807236
Случайно купил в букинистическом книгу про группы симметрии и Монстра. Я даже когда-то знал, что Монстр — это гигантская простая группа (порядка 196883), но в момент покупки книги про всё это забыл и думал, что это просто про теорию групп и симметрии.
Прочитал, прям хорошо. Книга, по сути, описывает историю возникновения теории групп и построения периодической таблицы атомов симметрии (простых конечных групп, которые далее не могут быть разложены на другие группы), а также нахождения 26 исключений (спорадических групп), не вписывающихся в эту таблицу. Монстр (он же Дружественный гигант, но это название не закрепилось) — самый большой (и, кажется, доказанно последний) из исключений. Ссылка в тему: https://youtu.be/mH0oCDa74tE?si=ld9KwGhjZ9JifyyE
Узнал много нового из истории математики. Я как-то был не в курсе, что к этой теме очень сильно приложился Конуэй, я его считал изобретателем игры Жизнь, но и только. А он прям монстр.
Узнал про Moonshine гипотезу (только что узнал, что по-русски её иногда называют Гипотезой чудовищного вздора). Оказывается, размерности Монстра вылезают в неожиданных местах, и в частности вылезли в теории струн. И здесь ещё много непонятного. Ссылка в тему: https://www.quantamagazine.org/mathematicians-chase-moonshine-string-theory-connections-20150312/
Снова захотелось
#books
🔥48👍19❤7
Сегодня про персоны.
Mustafa Suleyman
Многие привыкли воспринимать лицом DeepMind Демиса Хассабиса (Demis Hassabis), он всегда был более на виду, чем два других кофаундера -- Мустафа Сулейман (Mustafa Suleyman), и Шейн Легг (Shane Legg). Сегодня хочется сказать пару слов про Мустафу Сулеймана (https://en.wikipedia.org/wiki/Mustafa_Suleyman), хотя Шейн Легг тоже достоин отдельной дискуссии. В последние полгода Сулейман генерирует много новостей, полезно немного их подсобрать.
Во-первых, несколько лет назад был скандал, связанный с его стилем менеджмента в DeepMind. Мустафа тогда сначала ушёл из DeepMind в Гугл, став там VP of AI product management and AI policy, но потом ушёл и оттуда в VC, став партнёром в Greylock Partners (https://www.cnbc.com/2022/01/28/mustafa-suleyman-deepmind-co-founder-quits-google-ai-role-to-be-vc.html).
Но как верно угадал в тот момент неназванный VC, “My gut says that it’s temporary while he looks for the next company to build or join as a founder,” Сулейман не сидел спокойно и тогда же в 2022-м основал компанию Inflection AI вместе с Рейдом Хоффманом (Reid Hoffman, кофаундер LinkedIn и партнёр в Greylock) и Кареном Симоньяном (Karén Simonyan, помните VGG?).
Inflection AI разрабатывает персонального агента, personal AI, по имени Pi (можно поболтать тут: https://pi.ai/talk) и свою собственную LLM Inflection-1 (https://inflection.ai/inflection-1). По метрикам самой компании (https://inflection.ai/assets/Inflection-1.pdf) результаты лежат где-то между с одной стороны GPT-3.5 (https://news.1rj.ru/str/gonzo_ML/1140) и PaLM 540B (https://arxiv.org/abs/2204.02311), и с другой GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) и PaLM 2-L (https://news.1rj.ru/str/gonzo_ML/1559). Скоро обещают API, заявку оставить можно тут (https://docs.google.com/forms/d/e/1FAIpQLScM9Iz1KzaRlfgDrYrldoPDnXbhO5LW3-hqmQCd56YpheEN7g/viewform).
Миссия про персональный ИИ (https://inflection.ai/why-create-personal-ai) выглядит здраво, заявлено, что плохо, когда твой личный ассистент принадлежит какой-то большой корпорации, и надо чтобы он принадлежал тебе.
Компания в 2022-м поднимала $225M, а летом 2023 подняла раунд в $1.3B от Microsoft, NVIDIA, Билла Гейтса, Эрика Шмидта, и того же Хоффмана (https://www.crunchbase.com/organization/inflection-ai/company_financials).
Сейчас компания заканчивает собирать огромный кластер с 22 тысячами H100, заявлен как самый большой кластер в мире (https://inflection.ai/inflection-ai-announces-1-3-billion-of-funding) и со своими 22 exaFLOPS FP16 если бы он был в рейтинге TOP500 (https://www.top500.org/lists/top500/2023/06/) суперкомпьютеров, то был бы там на втором месте. Более подробный анализ этого кластера есть на The Next Platform (https://www.nextplatform.com/2023/07/05/the-1-billion-and-higher-ante-to-play-the-ai-game/).
Сулейман в свежем подкасте (https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy83YzYyNGM4NC9wb2RjYXN0L3Jzcw/episode/NDU1NmU5ZjMtNDUwMS00YWQ5LTliMTYtMThmMmIyODYzNzdi) заявил, что они обучают или будут обучать модели круче GPT-4.
Компания не целится в AGI (Artificial General Intelligence) и фокусируется на продвинутом прикладном AI, сам Сулейман использует термин ACI, Artificial Capable Intelligence, это где-то посередине между просто AI и AGI. В летней статье в MIT Technology Review (https://www.technologyreview.com/2023/07/14/1076296/mustafa-suleyman-my-new-turing-test-would-see-if-ai-can-make-1-million/) он пишет много про это и про переосмысление теста Тьюринга, Modern Turing Test, в котором агент должен действовать по инструкции “Go make $1 million on a retail web platform in a few months with just a $100,000 investment.” Он считает, что до успешного прохождения этого теста, может быть, осталась пара лет.
Mustafa Suleyman
Многие привыкли воспринимать лицом DeepMind Демиса Хассабиса (Demis Hassabis), он всегда был более на виду, чем два других кофаундера -- Мустафа Сулейман (Mustafa Suleyman), и Шейн Легг (Shane Legg). Сегодня хочется сказать пару слов про Мустафу Сулеймана (https://en.wikipedia.org/wiki/Mustafa_Suleyman), хотя Шейн Легг тоже достоин отдельной дискуссии. В последние полгода Сулейман генерирует много новостей, полезно немного их подсобрать.
Во-первых, несколько лет назад был скандал, связанный с его стилем менеджмента в DeepMind. Мустафа тогда сначала ушёл из DeepMind в Гугл, став там VP of AI product management and AI policy, но потом ушёл и оттуда в VC, став партнёром в Greylock Partners (https://www.cnbc.com/2022/01/28/mustafa-suleyman-deepmind-co-founder-quits-google-ai-role-to-be-vc.html).
Но как верно угадал в тот момент неназванный VC, “My gut says that it’s temporary while he looks for the next company to build or join as a founder,” Сулейман не сидел спокойно и тогда же в 2022-м основал компанию Inflection AI вместе с Рейдом Хоффманом (Reid Hoffman, кофаундер LinkedIn и партнёр в Greylock) и Кареном Симоньяном (Karén Simonyan, помните VGG?).
Inflection AI разрабатывает персонального агента, personal AI, по имени Pi (можно поболтать тут: https://pi.ai/talk) и свою собственную LLM Inflection-1 (https://inflection.ai/inflection-1). По метрикам самой компании (https://inflection.ai/assets/Inflection-1.pdf) результаты лежат где-то между с одной стороны GPT-3.5 (https://news.1rj.ru/str/gonzo_ML/1140) и PaLM 540B (https://arxiv.org/abs/2204.02311), и с другой GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) и PaLM 2-L (https://news.1rj.ru/str/gonzo_ML/1559). Скоро обещают API, заявку оставить можно тут (https://docs.google.com/forms/d/e/1FAIpQLScM9Iz1KzaRlfgDrYrldoPDnXbhO5LW3-hqmQCd56YpheEN7g/viewform).
Миссия про персональный ИИ (https://inflection.ai/why-create-personal-ai) выглядит здраво, заявлено, что плохо, когда твой личный ассистент принадлежит какой-то большой корпорации, и надо чтобы он принадлежал тебе.
Компания в 2022-м поднимала $225M, а летом 2023 подняла раунд в $1.3B от Microsoft, NVIDIA, Билла Гейтса, Эрика Шмидта, и того же Хоффмана (https://www.crunchbase.com/organization/inflection-ai/company_financials).
Сейчас компания заканчивает собирать огромный кластер с 22 тысячами H100, заявлен как самый большой кластер в мире (https://inflection.ai/inflection-ai-announces-1-3-billion-of-funding) и со своими 22 exaFLOPS FP16 если бы он был в рейтинге TOP500 (https://www.top500.org/lists/top500/2023/06/) суперкомпьютеров, то был бы там на втором месте. Более подробный анализ этого кластера есть на The Next Platform (https://www.nextplatform.com/2023/07/05/the-1-billion-and-higher-ante-to-play-the-ai-game/).
Сулейман в свежем подкасте (https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy83YzYyNGM4NC9wb2RjYXN0L3Jzcw/episode/NDU1NmU5ZjMtNDUwMS00YWQ5LTliMTYtMThmMmIyODYzNzdi) заявил, что они обучают или будут обучать модели круче GPT-4.
Компания не целится в AGI (Artificial General Intelligence) и фокусируется на продвинутом прикладном AI, сам Сулейман использует термин ACI, Artificial Capable Intelligence, это где-то посередине между просто AI и AGI. В летней статье в MIT Technology Review (https://www.technologyreview.com/2023/07/14/1076296/mustafa-suleyman-my-new-turing-test-would-see-if-ai-can-make-1-million/) он пишет много про это и про переосмысление теста Тьюринга, Modern Turing Test, в котором агент должен действовать по инструкции “Go make $1 million on a retail web platform in a few months with just a $100,000 investment.” Он считает, что до успешного прохождения этого теста, может быть, осталась пара лет.
🔥30👍17❤8👏2😁1
Он много рассуждает про то, как потрясёт экономику (https://www.cnbc.com/video/2023/06/06/inflection-ais-mustafa-suleyman-says-a-i-will-create-a-serious-number-of-losers-for-white-collar-work.html) и вообще изменится жизнь в ближайшем будущем. В свежем Foreign Affairs (https://www.foreignaffairs.com/world/artificial-intelligence-power-paradox) он рассуждает про то, как надо глобально регулировать ИИ, с привлечением всех государств и компаний, которые этот ИИ и развивают. Тут у него модельным годом заявлен 2035-й, когда ИИ везде и мир поменялся.
Про всё это и наверное что-то ещё Сулейман написал книгу “The Coming Wave” (https://www.the-coming-wave.com/), которая выйдет 5 сентября. В свежем подкасте на Wired (https://www.wired.com/story/have-a-nice-future-podcast-18/) тоже её обсуждают. Я уже заказал, жду :)
Соревнование в целом интересное намечается. OpenAI, Google, Anthropic, Inflection AI, и многие другие с одной стороны, и бурно развивающийся опенсорс с другой. Опенсорс Сулейман, кстати, тоже предлагает регулировать, да.
Про всё это и наверное что-то ещё Сулейман написал книгу “The Coming Wave” (https://www.the-coming-wave.com/), которая выйдет 5 сентября. В свежем подкасте на Wired (https://www.wired.com/story/have-a-nice-future-podcast-18/) тоже её обсуждают. Я уже заказал, жду :)
Соревнование в целом интересное намечается. OpenAI, Google, Anthropic, Inflection AI, и многие другие с одной стороны, и бурно развивающийся опенсорс с другой. Опенсорс Сулейман, кстати, тоже предлагает регулировать, да.
CNBC
Inflection AI's Mustafa Suleyman says A.I. will create 'serious number of losers' in white collar work
Mustafa Suleyman, Deepmind co-founder, joins 'Closing Bell' to discuss his book 'The Coming Wave' which discusses the growing risks of A.i.
🔥22🤔9❤5👍5🤡3🤮2💩1
One Wide Feedforward is All You Need
Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
Статья: https://arxiv.org/abs/2309.01826
Забавная работа про трансформеры из серии, чего бы там можно было выкинуть.
Традиционные блоки трансформеров состоят из двух больших компонент: self-attention и полносвязный слой (FFN). Роль FFN типа в добавлении нелинейности в преобразования эмбеддингов токенов.
Но оказывается, скрипач не нужен. Можно выкинуть блок FFN из всего декодера, и оставить только один шаренный FFN в энкодере, и будет всё ок (с точки зрения точности на выходе). Ну и FFN можно сделать сильно шире, чтобы количество параметров итогового трансформера совпадало с исходным классической архитектуры. Такую конфигурацию называют One Wide FFN.
Проверяют соответственно на полном трансформере (encoder-decoder) на задаче перевода, оценивают по BLEU. Я бы для такой задачи выбрал что-то менее проблемное и более математически формализованное, честно говоря. Классификацию там какую-нибудь или предсказание какого-то ряда, или ещё что-то, но не перевод с BLEU.
Архитектура Transformer Big: N_enc = N_dec = 6, d_model = 1024, d_ff = 4096, 16 голов внимания. Есть вариант Base, где размерности (но не количество) слоёв и число голов в два раза меньше, а также глубокий энкодер и мелкий декодер, и на одном декодере тоже проверяли.
Шаринг FFN очень мало ухудшает результат. И даже выбрасывание FFN вообще не сильно всё портит (особенно, если только из декодера -- делают вывод, что вклад энкодера и декодера сильно разный). Оставляют конфигурацию SharedEncNoDec -- без FFN в декодере, и шаринг FFN в энкодере.
Она на 41% легче по параметрам, на 22% быстрее на инференс, и всё это ценой в -1.0 BLEU. А если теперь FFN расширить так, чтобы суммарно параметров осталось столько же, то +0.9 BLEU от базовой модели и почти такое же ускорение, как у предыдущей модели. Но ещё большее расширение FFN уже не помогает, списывают на маленький датасет.
Кроме точности смотрят также на похожесть внутренних репрезентаций (через Linear Centered Kernel Alignment, CKA) и семантических пространств (через Local Neighborhood Similarity, LNS). Тут в целом довольно близко всё к бейзлайну. Хотя у более широкой модели оно подальше, причем в основном в семантическом пространстве.
Заодно на хитмепах похожести репрезентаций видно, что соседние слои обычно имеют близкие репрезентации и наверное они избыточны, от выкидывания одного слоя сильно хуже не станет. У One Wide FFN этот паттерн интереснее, там проявляется шахматная картинка и близки оказываются слои через один. Хз что это значит, но авторы считают, что модель выучивает какие-то нетривиальные трансформации и избыточность сети понижается.
Не прорыв, но забавно в общем. Не удивлюсь, если однажды придём к какой-то одной универсально лучшей FFN, которую проще будет зашить в железо :)
Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
Статья: https://arxiv.org/abs/2309.01826
Забавная работа про трансформеры из серии, чего бы там можно было выкинуть.
Традиционные блоки трансформеров состоят из двух больших компонент: self-attention и полносвязный слой (FFN). Роль FFN типа в добавлении нелинейности в преобразования эмбеддингов токенов.
Но оказывается, скрипач не нужен. Можно выкинуть блок FFN из всего декодера, и оставить только один шаренный FFN в энкодере, и будет всё ок (с точки зрения точности на выходе). Ну и FFN можно сделать сильно шире, чтобы количество параметров итогового трансформера совпадало с исходным классической архитектуры. Такую конфигурацию называют One Wide FFN.
Проверяют соответственно на полном трансформере (encoder-decoder) на задаче перевода, оценивают по BLEU. Я бы для такой задачи выбрал что-то менее проблемное и более математически формализованное, честно говоря. Классификацию там какую-нибудь или предсказание какого-то ряда, или ещё что-то, но не перевод с BLEU.
Архитектура Transformer Big: N_enc = N_dec = 6, d_model = 1024, d_ff = 4096, 16 голов внимания. Есть вариант Base, где размерности (но не количество) слоёв и число голов в два раза меньше, а также глубокий энкодер и мелкий декодер, и на одном декодере тоже проверяли.
Шаринг FFN очень мало ухудшает результат. И даже выбрасывание FFN вообще не сильно всё портит (особенно, если только из декодера -- делают вывод, что вклад энкодера и декодера сильно разный). Оставляют конфигурацию SharedEncNoDec -- без FFN в декодере, и шаринг FFN в энкодере.
Она на 41% легче по параметрам, на 22% быстрее на инференс, и всё это ценой в -1.0 BLEU. А если теперь FFN расширить так, чтобы суммарно параметров осталось столько же, то +0.9 BLEU от базовой модели и почти такое же ускорение, как у предыдущей модели. Но ещё большее расширение FFN уже не помогает, списывают на маленький датасет.
Кроме точности смотрят также на похожесть внутренних репрезентаций (через Linear Centered Kernel Alignment, CKA) и семантических пространств (через Local Neighborhood Similarity, LNS). Тут в целом довольно близко всё к бейзлайну. Хотя у более широкой модели оно подальше, причем в основном в семантическом пространстве.
Заодно на хитмепах похожести репрезентаций видно, что соседние слои обычно имеют близкие репрезентации и наверное они избыточны, от выкидывания одного слоя сильно хуже не станет. У One Wide FFN этот паттерн интереснее, там проявляется шахматная картинка и близки оказываются слои через один. Хз что это значит, но авторы считают, что модель выучивает какие-то нетривиальные трансформации и избыточность сети понижается.
Не прорыв, но забавно в общем. Не удивлюсь, если однажды придём к какой-то одной универсально лучшей FFN, которую проще будет зашить в железо :)
👍43🔥2👀2❤1🤔1