NEW BOT Телеграм, страница

Также неделя креатива объявляется открытой.

* Lyria 2. Our latest music generation model (waitlist)
* Flow. AI filmmaking tool на базе новой Veo 3 (US)
* Gemini 2.5 Native audio output. Может всё-таки до ризонинга шёпотом недалеко?
* Imagen 4. Новый генератор картинок, 10x быстрее и лучше предыдущего

Google DeepMind

Lyria

Lyria 2 is our latest music generation model. It delivers high-fidelity music and professional-grade audio, across a range of genres and intricate compositions.

🤗2

12.1K viewsedited 18:46

gonzo-обзоры ML статей

В семействе Gemma пополнения!

* DolphinGemma (предобучена на звуках коммуникации дельфинов) уже не новость, но всё равно прикольно. Помните Project CETI, кстати?
* SignGemma для языка жестов (в первую очередь American Sign Language)
* MedGemma для медицины
* Gemma 3n с матрёшками внутри для эффективного on-device, уже упоминали сегодня.

Кстати, бахнул авторазбор статьи про MatFormer, на базе которого матрёшечная Gemma построена. Читать тут: https://news.1rj.ru/str/gonzo_ML_podcasts/144

gonzo_ML_podcasts

MatFormer: Nested Transformer for Elastic Inference
Authors: Devvrit, Sneha Kudugunta, Aditya Kusupati, Tim Dettmers, Kaifeng Chen, Inderjit Dhillon, Yulia Tsvetkov, Hannaneh Hajishirzi, Sham Kakade, Ali Farhadi, Prateek Jain
Paper: https://arxiv.org/abs/2310.07707…

🔥15❤1

7.27K viewsedited 21:44

gonzo-обзоры ML статей

🔥3

7.2K views21:44

gonzo-обзоры ML статей

👏1

7.02K views21:45

gonzo-обзоры ML статей

❤14

7.01K views21:45

gonzo-обзоры ML статей

Свежего Бенжио вам в ленту

https://youtu.be/qe9QSCF-d88?si=Xp2zLxiKIcAkVjap

YouTube

The Catastrophic Risks of AI — and a Safer Path | Yoshua Bengio | TED

Yoshua Bengio — the world's most-cited computer scientist and a "godfather" of artificial intelligence — is deadly concerned about the current trajectory of the technology. As AI models race toward full-blown agency, Bengio warns that they've already learned…

❤10😁5🤡2🖕2

7.65K views08:27

gonzo-обзоры ML статей

Yo!

https://www.anthropic.com/news/claude-4

Anthropic

Introducing Claude 4

Discover Claude 4's breakthrough AI capabilities. Experience more reliable, interpretable assistance for complex tasks across work and learning.

1❤13👍7

7.69K views18:01

gonzo-обзоры ML статей

❤4

7.7K views18:03

gonzo-обзоры ML статей

❤9🔥3😁2

8.43K views18:03

gonzo-обзоры ML статей

Тем временем продолжаются эксперименты с автообзорами статей в канале https://news.1rj.ru/str/gonzo_ML_podcasts.

Из последнего и свежего:
* Статья от Тегмарка и ко про выучивание сильных узких моделей. Для которых правильный прунинг из большой общей модели оказывается лучше дистилляции, а в целом широкие и разнообразные данные таки нужны для более быстрого и качественного выучивания определённых навыков.
* Статья про ризонинг токены где на модельной задаче с поиском A* и лабиринтами показано, что трассировки CoT не обязательно являются достоверным отображением «рассуждений» модели, и «бессмысленные» промежуточные токены могут быть поразительно эффективны.
* Статья про механистичную оценку способностей трансформеров и SSM, показывающая что модели со схожей поведенческой производительностью могут использовать принципиально разные внутренние стратегии.

Поток статей каждый день валится огромный, всё разобрать нереально, так что буду продолжать делать это автоматически для статей, которые любопытны, но не настолько чтобы разбирать вручную. Режим вручную оставлю для самого вкусного.

gonzo_ML_podcasts

gonzo_ML sister channel with automatically generated reviews and audio podcasts.

Будь осторожен, прогон возможен!

1🔥24👍13❤7

7.67K views23:05

gonzo-обзоры ML статей

Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели используют свои слои

В продолжение темы про mech interp в трансформерах, свежая работа Криса Маннинга и ко разбирает важность глубины трансформера и приходит к выводам, что более глубокая сеть скорее растягивает те же вычисления на большее число слоёв.

Это прикольная тема, я тоже экспериментировал с выкидыванием слоёв в LLM (можете взять код и поэкспериментировать на более новых моделях, или на более глубоких, у кого DGX под рукой есть), и в канале мы регулярно писали про подобные работы (Transformer Layers as Painters или LayerShuffle).

Ждём более умных подходов к обучению, им явно есть место!

P.S. Обновил автогенератор ревью и среди прочего пофиксил там глупую багу, из-за которой на перевод отправлялась не самая финальная версия ревью. Теперь должно стать ещё лучше, особенно это помогло в борьбе с галлюцинациями и выдумыванием ссылок. До канала такие примеры не доезжали, но проблема была регулярная.

Wikipedia

Глубже!

российский кинофильм 2020 года

1😁18🔥5👍2❤1🍾1

9.14K views13:26

gonzo-обзоры ML статей

Пока не R2, но всё же

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

huggingface.co

deepseek-ai/DeepSeek-R1-0528 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥36❤3

7.39K views22:01

gonzo-обзоры ML статей

Картинка подоспела

https://x.com/deepseek_ai/status/1928061589107900779?t=K2G9KvaYQP3Sz_mtWKM1DA&s=19

❤27

7.5K views17:43

gonzo-обзоры ML статей

Картинка подоспела https://x.com/deepseek_ai/status/1928061589107900779?t=K2G9KvaYQP3Sz_mtWKM1DA&s=19

Поразительно, конечно, изменился рынок за пару лет. Теперь центр топового опенсорса -- Китай.

❤76🐳16👍11💯11🥴6❤‍🔥1👌1

7.01K views20:59

gonzo-обзоры ML статей

Очередная интересная статья от крутого коллектива, включающего Jeff Clune, Sakana AI и прочих. Sakana — это вообще, кажется, самая интересная лаба Азии. В очереди на разбор несколько других их свежих статей лежит. Разбирать пока некогда, как и сегодняшнюю Darwin Gödel Machine, так что пока автомат. Позже, возможно, сделаю отдельный разбор ручками.

Уже были агенты эволюционирующие (см. Gödel Agent, да и свежий AlphaEvolve тоже), теперь они ещё более эволюционирующие и open-ended. Крайне интересная тема!

gonzo-обзоры ML статей

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement
Xunjian Yin, Xinyi Wang, Liangming Pan, Xiaojun Wan, William Yang Wang
Статья: https://arxiv.org/abs/2410.04444
Репа: https://github.com/Arvid-pku/Godel_Agent

Why did the Gödel…

🔥6❤4

7.27K views16:12

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents
Авторы: Jenny Zhang, Shengran Hu, Cong Lu, Robert Lange, Jeff Clune
Статья: https://arxiv.org/abs/2505.22954
Код: https://github.com/jennyzzt/dgm

Поиск искусственного интеллекта, способного автономно и непрерывно совершенствовать свои возможности, подобно биологической эволюции или научным открытиям, уже давно является одной из главных нерешённых задач. Большинство современных систем ИИ, несмотря на впечатляющие достижения, работают в рамках фиксированных, разработанных человеком архитектур, что ограничивает их потенциал для неограниченного роста. В этой статье представлена Машина Дарвина-Гёделя (Darwin Gödel Machine, DGM) — новая система, призванная преодолеть это фундаментальное ограничение. DGM пытается ответить на вопрос: как системы ИИ могут бесконечно улучшать себя, одновременно становясь лучше в решении релевантных задач? Её основной вклад — это самосовершенствующийся ИИ, который итеративно модифицирует *собственную кодовую базу* и, что особенно важно, *эмпирически валидировал* эти изменения с помощью бенчмарков по программированию. Черпая вдохновение в дарвиновской эволюции, DGM поддерживает архив сгенерированных «агентов-программистов», способствуя неограниченному поиску, что позволяет ей обнаруживать разнообразные улучшения и избегать попадания в ловушки локальных пиков производительности.

DGM работает в рамках элегантного итерационного цикла. Он начинается с исходного агента-программиста, построенного на базе замороженной фундаментальной модели (FM) со способностью использовать инструменты. В каждом цикле «родительские» агенты выбираются из постоянно растущего архива. При этом отборе приоритет отдаётся агентам на основе комбинации их производительности (с использованием сигмоидального масштабирования для придания большего веса высоким оценкам) и бонуса за новизну (обратно пропорционального количеству уже произведённых ими «потомков», что поощряет исследование менее избитых путей). Затем эти родительские агенты анализируют *собственные логи оценки на бенчмарках*, чтобы диагностировать слабые места или предложить новые функции. Это предложение затем формулируется как новая постановка задачи для агента, которую он должен реализовать в своей собственной кодовой базе, генерируя «дочерних» агентов. Эти новые агенты оцениваются на бенчмарках по программированию, и успешные, функциональные варианты добавляются в архив.

Ключевое нововведение заключается в отходе от теоретической машины Гёделя, какой её концептуализировал Шмидхубер (в работе «Gödel machines: Fully self-referential optimal universal self-improvers. Artificial general intelligence, 2007»), которая требовала *доказуемых* самомодификаций — практическое препятствие для сложных ИИ. DGM прагматично выбирает *эмпирическую валидацию*. Этот выбор является основополагающим: формальные доказательства пользы произвольных изменений кода в сложных системах ИИ в значительной степени трудноосуществимы. Эмпирическое тестирование обеспечивает реальный, наблюдаемый механизм для итеративного улучшения.

🔥18❤7⚡1👍1

5.18K views16:12

About

Blog

Apps

Platform