gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Hot news!
----------------------------

Today we’re announcing SeamlessM4T, the first all-in-one, multilingual multimodal AI translation model.

Details ➡️ https://bit.ly/45z0e6s
Demo ➡️ https://bit.ly/3YNwm3Z

This single model can perform tasks across speech-to-text, speech-to-speech, text-to-speech, text-to-text translation & speech recognition for up to 100 languages depending on the task. Compared to cascaded approaches, SeamlessM4T's single system reduces errors & delays, increasing translation efficiency and delivering state-of-the-art results.

As part of our open approach, we're publicly releasing this work under a CC BY-NC 4.0 license so that others can continue to build on this important field of study.
16🔥13👍6🦄1
Interesting numbers

More than 15 billion images created using text-to-image algorithms since last year. To put this in perspective, it took photographers 150 years, from the first photograph taken in 1826 until 1975, to reach the 15 billion mark.

https://journal.everypixel.com/ai-image-statistics
🔥1110👍4👎2🤡1
А вот и Code Llama подоспела

https://ai.meta.com/blog/code-llama-large-language-model-coding/

Code Llama is a state-of-the-art LLM capable of generating code, and natural language about code, from both code and natural language prompts.

Code Llama is free for research and commercial use.

Code Llama is built on top of Llama 2 and is available in three models:
- Code Llama, the foundational code model;
- Codel Llama - Python specialized for Python;
- and Code Llama - Instruct, which is fine-tuned for understanding natural language instructions.

In our own benchmark testing, Code Llama outperformed state-of-the-art publicly available LLMs on code tasks
🔥281👍1
Сегодня для разнообразия гонзо-обзор книги

Книга: Symmetry and the Monster. One of the greatest quests of mathematics
Автор: Mark Ronan
URL: https://global.oup.com/academic/product/symmetry-and-the-monster-9780192807236

Случайно купил в букинистическом книгу про группы симметрии и Монстра. Я даже когда-то знал, что Монстр — это гигантская простая группа (порядка 196883), но в момент покупки книги про всё это забыл и думал, что это просто про теорию групп и симметрии.

Прочитал, прям хорошо. Книга, по сути, описывает историю возникновения теории групп и построения периодической таблицы атомов симметрии (простых конечных групп, которые далее не могут быть разложены на другие группы), а также нахождения 26 исключений (спорадических групп), не вписывающихся в эту таблицу. Монстр (он же Дружественный гигант, но это название не закрепилось) — самый большой (и, кажется, доказанно последний) из исключений. Ссылка в тему: https://youtu.be/mH0oCDa74tE?si=ld9KwGhjZ9JifyyE

Узнал много нового из истории математики. Я как-то был не в курсе, что к этой теме очень сильно приложился Конуэй, я его считал изобретателем игры Жизнь, но и только. А он прям монстр.

Узнал про Moonshine гипотезу (только что узнал, что по-русски её иногда называют Гипотезой чудовищного вздора). Оказывается, размерности Монстра вылезают в неожиданных местах, и в частности вылезли в теории струн. И здесь ещё много непонятного. Ссылка в тему: https://www.quantamagazine.org/mathematicians-chase-moonshine-string-theory-connections-20150312/

Снова захотелось в Париж нырнуть в абстрактную алгебру.

#books
🔥48👍197
❤‍🔥21👍2
Сегодня про персоны.

Mustafa Suleyman

Многие привыкли воспринимать лицом DeepMind Демиса Хассабиса (Demis Hassabis), он всегда был более на виду, чем два других кофаундера -- Мустафа Сулейман (Mustafa Suleyman), и Шейн Легг (Shane Legg). Сегодня хочется сказать пару слов про Мустафу Сулеймана (https://en.wikipedia.org/wiki/Mustafa_Suleyman), хотя Шейн Легг тоже достоин отдельной дискуссии. В последние полгода Сулейман генерирует много новостей, полезно немного их подсобрать.

Во-первых, несколько лет назад был скандал, связанный с его стилем менеджмента в DeepMind. Мустафа тогда сначала ушёл из DeepMind в Гугл, став там VP of AI product management and AI policy, но потом ушёл и оттуда в VC, став партнёром в Greylock Partners (https://www.cnbc.com/2022/01/28/mustafa-suleyman-deepmind-co-founder-quits-google-ai-role-to-be-vc.html).

Но как верно угадал в тот момент неназванный VC, “My gut says that it’s temporary while he looks for the next company to build or join as a founder,” Сулейман не сидел спокойно и тогда же в 2022-м основал компанию Inflection AI вместе с Рейдом Хоффманом (Reid Hoffman, кофаундер LinkedIn и партнёр в Greylock) и Кареном Симоньяном (Karén Simonyan, помните VGG?).

Inflection AI разрабатывает персонального агента, personal AI, по имени Pi (можно поболтать тут: https://pi.ai/talk) и свою собственную LLM Inflection-1 (https://inflection.ai/inflection-1). По метрикам самой компании (https://inflection.ai/assets/Inflection-1.pdf) результаты лежат где-то между с одной стороны GPT-3.5 (https://news.1rj.ru/str/gonzo_ML/1140) и PaLM 540B (https://arxiv.org/abs/2204.02311), и с другой GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) и PaLM 2-L (https://news.1rj.ru/str/gonzo_ML/1559). Скоро обещают API, заявку оставить можно тут (https://docs.google.com/forms/d/e/1FAIpQLScM9Iz1KzaRlfgDrYrldoPDnXbhO5LW3-hqmQCd56YpheEN7g/viewform).

Миссия про персональный ИИ (https://inflection.ai/why-create-personal-ai) выглядит здраво, заявлено, что плохо, когда твой личный ассистент принадлежит какой-то большой корпорации, и надо чтобы он принадлежал тебе.

Компания в 2022-м поднимала $225M, а летом 2023 подняла раунд в $1.3B от Microsoft, NVIDIA, Билла Гейтса, Эрика Шмидта, и того же Хоффмана (https://www.crunchbase.com/organization/inflection-ai/company_financials).

Сейчас компания заканчивает собирать огромный кластер с 22 тысячами H100, заявлен как самый большой кластер в мире (https://inflection.ai/inflection-ai-announces-1-3-billion-of-funding) и со своими 22 exaFLOPS FP16 если бы он был в рейтинге TOP500 (https://www.top500.org/lists/top500/2023/06/) суперкомпьютеров, то был бы там на втором месте. Более подробный анализ этого кластера есть на The Next Platform (https://www.nextplatform.com/2023/07/05/the-1-billion-and-higher-ante-to-play-the-ai-game/).

Сулейман в свежем подкасте (https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy83YzYyNGM4NC9wb2RjYXN0L3Jzcw/episode/NDU1NmU5ZjMtNDUwMS00YWQ5LTliMTYtMThmMmIyODYzNzdi) заявил, что они обучают или будут обучать модели круче GPT-4.

Компания не целится в AGI (Artificial General Intelligence) и фокусируется на продвинутом прикладном AI, сам Сулейман использует термин ACI, Artificial Capable Intelligence, это где-то посередине между просто AI и AGI. В летней статье в MIT Technology Review (https://www.technologyreview.com/2023/07/14/1076296/mustafa-suleyman-my-new-turing-test-would-see-if-ai-can-make-1-million/) он пишет много про это и про переосмысление теста Тьюринга, Modern Turing Test, в котором агент должен действовать по инструкции “Go make $1 million on a retail web platform in a few months with just a $100,000 investment.” Он считает, что до успешного прохождения этого теста, может быть, осталась пара лет.
🔥30👍178👏2😁1
Он много рассуждает про то, как потрясёт экономику (https://www.cnbc.com/video/2023/06/06/inflection-ais-mustafa-suleyman-says-a-i-will-create-a-serious-number-of-losers-for-white-collar-work.html) и вообще изменится жизнь в ближайшем будущем. В свежем Foreign Affairs (https://www.foreignaffairs.com/world/artificial-intelligence-power-paradox) он рассуждает про то, как надо глобально регулировать ИИ, с привлечением всех государств и компаний, которые этот ИИ и развивают. Тут у него модельным годом заявлен 2035-й, когда ИИ везде и мир поменялся.

Про всё это и наверное что-то ещё Сулейман написал книгу “The Coming Wave” (https://www.the-coming-wave.com/), которая выйдет 5 сентября. В свежем подкасте на Wired (https://www.wired.com/story/have-a-nice-future-podcast-18/) тоже её обсуждают. Я уже заказал, жду :)

Соревнование в целом интересное намечается. OpenAI, Google, Anthropic, Inflection AI, и многие другие с одной стороны, и бурно развивающийся опенсорс с другой. Опенсорс Сулейман, кстати, тоже предлагает регулировать, да.
🔥22🤔95👍5🤡3🤮2💩1
One Wide Feedforward is All You Need
Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
Статья: https://arxiv.org/abs/2309.01826

Забавная работа про трансформеры из серии, чего бы там можно было выкинуть.

Традиционные блоки трансформеров состоят из двух больших компонент: self-attention и полносвязный слой (FFN). Роль FFN типа в добавлении нелинейности в преобразования эмбеддингов токенов.

Но оказывается, скрипач не нужен. Можно выкинуть блок FFN из всего декодера, и оставить только один шаренный FFN в энкодере, и будет всё ок (с точки зрения точности на выходе). Ну и FFN можно сделать сильно шире, чтобы количество параметров итогового трансформера совпадало с исходным классической архитектуры. Такую конфигурацию называют One Wide FFN.

Проверяют соответственно на полном трансформере (encoder-decoder) на задаче перевода, оценивают по BLEU. Я бы для такой задачи выбрал что-то менее проблемное и более математически формализованное, честно говоря. Классификацию там какую-нибудь или предсказание какого-то ряда, или ещё что-то, но не перевод с BLEU.

Архитектура Transformer Big: N_enc = N_dec = 6, d_model = 1024, d_ff = 4096, 16 голов внимания. Есть вариант Base, где размерности (но не количество) слоёв и число голов в два раза меньше, а также глубокий энкодер и мелкий декодер, и на одном декодере тоже проверяли.

Шаринг FFN очень мало ухудшает результат. И даже выбрасывание FFN вообще не сильно всё портит (особенно, если только из декодера -- делают вывод, что вклад энкодера и декодера сильно разный). Оставляют конфигурацию SharedEncNoDec -- без FFN в декодере, и шаринг FFN в энкодере.

Она на 41% легче по параметрам, на 22% быстрее на инференс, и всё это ценой в -1.0 BLEU. А если теперь FFN расширить так, чтобы суммарно параметров осталось столько же, то +0.9 BLEU от базовой модели и почти такое же ускорение, как у предыдущей модели. Но ещё большее расширение FFN уже не помогает, списывают на маленький датасет.

Кроме точности смотрят также на похожесть внутренних репрезентаций (через Linear Centered Kernel Alignment, CKA) и семантических пространств (через Local Neighborhood Similarity, LNS). Тут в целом довольно близко всё к бейзлайну. Хотя у более широкой модели оно подальше, причем в основном в семантическом пространстве.

Заодно на хитмепах похожести репрезентаций видно, что соседние слои обычно имеют близкие репрезентации и наверное они избыточны, от выкидывания одного слоя сильно хуже не станет. У One Wide FFN этот паттерн интереснее, там проявляется шахматная картинка и близки оказываются слои через один. Хз что это значит, но авторы считают, что модель выучивает какие-то нетривиальные трансформации и избыточность сети понижается.

Не прорыв, но забавно в общем. Не удивлюсь, если однажды придём к какой-то одной универсально лучшей FFN, которую проще будет зашить в железо :)
👍43🔥2👀21🤔1