gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.71K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Всё целиком оформлено как асинхронный пайплайн (спасибо питонячьему asyncio), где множество задач работают параллельно и дожидаются результата от предыдущих шагов, когда требуется. В пайплайне есть контроллер, LLM сэмплеры и узлы оценки. Всё оптимизировано под throughput, а не время выполнения одного конкретного вычисления. Максимизируют количество проверяемых идей за фиксированный вычислительный бюджет.

Это в целом всё, система не выглядит суперсложной. По сравнению с прерыдущими AlphaTensor, AlphaDev, FunSearch и т.п. всё больше “интеллекта” выносится на сторону LLM.

С FunSearch есть отдельное сравнение в таблице, если кратко, то три ключевых момента. FunSearch работал на уровне одной питоновской функции, здесь работа на уровне всей кодовой базы, сколько имеется, и не обязательно на питоне. У FunSearch была одна objective function, здесь же многокритериальная оптимизация. Наконец, внутри FunSearch были довольно маленькие LLM, обученные на коде, а здесь одна из лучших фронтирных моделей.

Итак, применили AlphaEvolve к различным задачам.

Например, поиск декомпозиции тензора для нахождения способа перемножения матриц, та же самая задача, которую решал узкоспециализированный AlphaTensor, подробнее про саму задачу рекомендую прочитать в оригинальном посте. Стартовали со стандартного градиентного алгоритма, включающего инициализатор, лосс функцию для реконструкции тензора, и оптимизатор Adam. С этой стартовой точки AlphaEvolve вывел новый алгоритм и улучшил SoTA результаты для матричных умножений 14 разных размеров ⟨𝑚, 𝑛, 𝑝⟩. Интересно, что в таблице заявлено улучшение для размера ⟨4, 4, 4⟩, где получили 48 скалярных умножений вместо 49. AlphaTensor правда получал 47, но там была модульная арифметика, а здесь это число для комплексной.

Другое направление включало 50 математических задач из анализа, комбинаторики, теории чисел и геометрии, где надо было находить объекты или делать построения с определёнными свойствами, оптимальными или около-оптимальными по некоторой мере. В 75% случаев AlphaEvolve переоткрыл известное лучшее решение, в 20% улучшил его. Во всех случаях стартовали со случайного или простого решения. По сравнению с классическими подходами AlphaEvolve более универсален и не требует какого-то особого затачивания на конкретную задачу, он сам способен обнаружить эффективные паттерны для поиска решения, что открывает дорогу к широкомасштабному исследованию разных задач. Здесь мы имеем сильно улучшенный FunSearch.

Главная методологическая инновация здесь -- это способность выводить (в смысле эволюционировать) эвристические алгоритмы поиска, вместо того чтобы сразу выводить сами построения. В частности использовалась стратегия итеративного улучшения, когда на каждом шаге алгоритму давали лучшее решение предыдущего шага и фиксированный бюджет (1000 секунд), и модель должна была найти более хорошее построение. Так отбирались эвристики, способные улучшать уже найденные хорошие решения, и финальное построение являлось результатом цепочки различных специализированных эвристик -- ранние специализировались на улучшении простых или случайных начальных состояний, поздние на файнтюнинге околооптимальных решений.

Найденные математические результаты и результаты тензорных декомпозиций собраны в колабе.

Применили AlphaEvolve и к инфраструктурным задачам Гугла -- шедулингу задач на кластере, управляемом Borg. Там надо было раскидывать задачи по машинам с учётом доступности и требований по CPU/memory. Функция должна была выдавать priority score для каждой машины под текущую задачу. AlphaEvolve нашёл эвристику, улучшившую текущую эвристику Гугла в продакшне, что привело к экономии 0.7% ресурсов. В отличие от результатов DRL это ещё и проще и понятнее.
❤‍🔥15👍9
В другой задаче применили AlphaEvolve в нахождении эвристики для тайлинга при матричном умножении, используемом в кернелах для Gemini. Здесь надо эффективно работать на входных матрицах разных размеров. Получили ускорение в 23% относительно ручного кернела и сократили время обучения Gemini на 1%. В масштабах Гугла неплохо. Кроме того, вместо месяцев ручной оптимизации потратили дни автоматической. Пример, когда хороший AI позволяет делать ещё более хороший AI быстрее, ускоряем экспоненту.

Пооптимизировали арифметический блок на TPU. Взяли уже сильно оптимизированный Verilog код, смогли устранить ненужные биты, будет интегрировано в выходящий новый TPU.

Ещё применили к имплементации FlashAttention на Pallas+JAX. Работали напрямую с низким уровнем, результатом компиляции XLA -- intermediate representations (IR). Результат оптимизации проверили на корректность, по скорости добились улучшения в 32% на ядре и дополнительных 15% на пре/пост-процессинге. В целом отсюда дорога ко включению в конечном счёте AlphaEvolve в компиляторы.

На матричных умножениях и одной математической задаче сделали абляции. Каждый из компонентов: эволюционный подход, добавление большого контекста, мета-промптинг, эволюция полного файла вместо отдельных строк, использование больших LLM в дополнение к малым (видимо, Pro в дополнение ко Flash) -- всё улучшает результат.

В общем всё прикольно. Ранние эксперименты с использованием LLM для управления поиском и подобное (типа FunSearch) меня не так впечатляли, но теперь результат прям хорош. У нас сейчас в очередной раз происходит какой-то level-up в универсальности. За последние лет десять революции deep learning мы активно двигались от очень специальных однозадачных решений ко всё более общим. Например, картиночные классификаторы сначала было хорошо обучать на конкретную задачу, и мы учили все эти vgg и resnet’ы на закрытом наборе классов. Через некоторое время оказалось, что есть модели, на которых можно уже делать классификацию по открытому набору классов и вообще собирать классификаторы без обучения на уже предобученных моделях (хоть на CLIP). Потом оказалось, что и картиночные модели можно уже не иметь, теперь VLM умеют очень многое, а создание нового решения ещё больше упрощается -- пиши себе промпты и объясняй что нужно нормальным английским языком. Вот здесь с математикой и оптимизациями так же. Были очень специальные модели (AlphaTensor), появились чуть более общие с LLM (FunSearch), а в нынешней итерации они ещё более общие.

Экспертные знания и умения по оптимизации тоже продолжают вытесняться умными алгоритмами, как оно и было весь путь от прихода нейросетей в computer vision. Непонятно, через 3-5 лет кому-нибудь ещё нужно будет вручную заниматься оптимизацией кернелов? Сколько сейчас на земле людей, способных это сделать? И сколько будет? И явно это не предел, будут и ещё более умные блоки, которым просто объясняй что нужно, а то и не объясняй, сами догадаются. Интересно, как бы результаты AlphaEvolve изменились от включения туда Gemini 2.5 вмеcто 2.0. Любопытный был бы не ablation, а такой substitution.

Можно также это всё рассматривать как вариант test-time compute. Какая по большому счёту разница, запускаем мы там ризонинг поверх LLM, какой-то развесистый Tree-of-Thought, или эволюцию? Эволюция явно круче сэмплинга. Что если сделать дистилляцию AlphaEvolve-аугментированной LLM в обычную LLM? А заодно попросить оптимизировать все процессы обучения и инференса этой модели (как собственно уже было сделано в текущей работе для Gemini и шедулинга задач)? Богатые богатеют, экспоненциальные экспоненциируют.

А ещё ведь наверняка можно и более специализированных агентов добавить в такую систему, и с более качественной критикой, и с большими доменными знаниями. Уух, следующая версия AlphaEvolve может быть вообще бомбой. Возможно, это будет своеобразное слияние с AI co-scientist, там не было эволюции кода, был сплошной язык (и риск галлюцинаций), но зато была мультиагентность.
1👍23❤‍🔥107🔥4
Текущая работа также является интересным развитием по части эволюционных алгоритмов. Раньше там приходилось писать различные кастомные операторы (типа скрещивания или мутации в случае генетических алгоритмов, коих я сам написал огромное количество). Теперь ничего этого делать не надо, LLM сама решает как и куда эволюционировать решение, неявно реализуя те же операторы, но пользуясь всем мировым знанием из претрейна. И я думаю, доменно-специфичные LLM могли бы здесь быть ещё сильно лучше. И наверняка будут.

Это всё очень прикольно. Long live LLM-guided evolution!

Приятно также видеть много знакомых имён в авторах или благодарностях. Всем привет!
20👍13🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
18🎉3
Любопытная движуха

Analog Foundation Models
https://arxiv.org/abs/2505.09663

In this work, we introduce a general and scalable method to robustly adapt LLMs for execution on noisy, low-precision analog hardware. Our approach enables state-of-the-art models including Phi-3-mini-4k-instruct and Llama-3.2-1B-Instruct to retain performance comparable to 4-bit weight, 8-bit activation baselines, despite the presence of analog noise and quantization constraints. Additionally, we show that as a byproduct of our training methodology, analog foundation models can be quantized for inference on low-precision digital hardware. Finally, we show that our models also benefit from test-time compute scaling, showing better scaling behavior than models trained with 4-bit weight and 8-bit static input quantization. Our work bridges the gap between high-capacity LLMs and efficient analog hardware, offering a path toward energy-efficient foundation models.
👀33👍144
Это прекрасно. Ernie and Bert.
🤗3915😁12👎2🔥2
Напоминаю, что сегодня европейским вечером/западноамериканским утром будет самая большая ежегодная конференция Гугла, Google I/O 2025:

https://io.google/2025/

Я на место не поехал, буду в трансляции смотреть :)

Все ждут больших анонсов, например, Gemini Ultra (опять!)

После кейноутов в секции по AI будет также Хассабис:

https://io.google/2025/explore/pa-keynote-1

Demis Hassabis on the frontiers of AI

Join Demis Hassabis, co-founder and CEO of Google DeepMind and Alex Kantrowitz, host of the Big Technology Podcast, for a visionary conversation about the future of AI and its impact on our world. This marquee session offers a unique opportunity to hear directly from one of the most influential leaders in the field of AI.
15👍6🔥1
Forwarded from gonzo_ML_podcasts
Analog Foundation Models
Julian Büchel, Iason Chalas, Giovanni Acampa, An Chen, Omobayode Fagbohungbe, Sidney Tsai, Kaoutar El Maghraoui, Manuel Le Gallo, Abbas Rahimi, Abu Sebastian
Статья: https://arxiv.org/abs/2505.09663
Код: https://github.com/IBM/analog-foundation-models

Неуклонный рост размеров и сложности больших языковых моделей (LLM) выдвинул на первый план острую необходимость в более энергоэффективных вычислительных парадигмах. Аналоговые вычисления в памяти (Analog In-Memory Computing, AIMC) выглядят здесь многообещающим решением: они потенциально способны существенно снизить энергопотребление за счёт выполнения умножения матрицы на вектор непосредственно в массивах памяти. Однако у AIMC-оборудования есть свои недостатки, главным образом — присущий ему шум и жёсткие ограничения квантования, которые могут серьёзно ухудшить производительность стандартных, предобученных LLM.

В этой статье авторы задаются ключевым вопросом: можно ли современные мощные LLM надёжно адаптировать для развёртывания на таком шумном, низкоточном аналоговом оборудовании? И если да, то как? Исследователи представляют «аналоговые базовые модели» (собственно, Analog Foundation Models), предлагая общий и масштабируемый метод для достижения именно этой цели. Они демонстрируют, что даже передовые модели могут сохранять производительность, сравнимую с сильными цифровыми бейзлайнами квантования, несмотря на неидеальности аналоговых вычислений.

Ключевая проблема заключается в том, что готовые LLM (off-the-shelf LLM), обычно обучаемые в форматах с высокой точностью (например, FP16), крайне чувствительны к аналоговому шуму и низкоточному квантованию, свойственному AIMC-системам. Как отмечают авторы, прямое развёртывание этих моделей на AIMC-оборудовании часто приводит к значительному падению производительности. Хотя предыдущие исследования изучали обучение с учётом аппаратных особенностей (Hardware-Aware Training, HWA), они преимущественно фокусировались на моделях меньшего размера, часто из области компьютерного зрения, или делали менее реалистичные предположения о характеристиках оборудования. Нынешняя работа выделяется тем, что нацелена на высокоёмкие, предобученные LLM, такие как Phi-3-mini и Llama-3.1 8B — модели, чьи исходные массивные датасеты предобучения зачастую недоступны.

Предложенная методология представляет собой тщательно проработанный трёхэтапный процесс. Сначала генерируются синтетические обучающие данные путём итеративной выборки из целевой предобученной LLM. Это позволяет обойти необходимость в оригинальных датасетах для обучения — важнейший практический момент. Затем новая «аналоговая базовая модель» обучается на этих синтетических данных с использованием дистилляции знаний (knowledge distillation), стремясь имитировать поведение исходной высокоточной модели.

Вся соль здесь в интегрированных на этом этапе техниках обучения с учётом аппаратных особенностей (HWA). К ним относятся:
* обучаемые статические диапазоны квантования для входных данных (имитируют цифро-аналоговые преобразователи (digital-to-analog converters));
* фиксированное глобальное статическое квантование выходных данных (имитирует аналого-цифровые преобразователи (analog-to-digital converters));
* поканальное добавление аддитивного гауссовского шума к весам во время прямого прохода (для имитации шума устройства);
* итеративное отсечение (clipping) весов после каждого шага оптимизатора (для поддержания компактного распределения весов, подходящего для энергонезависимых запоминающих устройств (non-volatile memory devices)).

Такой набор методов — это прямой ответ на известные ограничения AIMC-оборудования: например, необходимость статических диапазонов квантования (вместо динамических настроек для каждого токена, распространённых в цифровом квантовании) и неизбежное присутствие аналогового шума. Использование синтетических данных и дистилляции — прагматичное решение для адаптации проприетарных или очень больших моделей без доступа к их оригинальным обучающим корпусам.
10🔥9👍1
Forwarded from gonzo_ML_podcasts
Экспериментальные результаты весьма показательны. Аналоговые базовые модели, обученные по этой методологии, демонстрируют значительно улучшенную устойчивость к аппаратно-реалистичному шуму, который моделировался на основе существующего AIMC-чипа на базе памяти с изменением фазового состояния (PCM-based). При оценке с имитацией аналогового шума эти модели в значительной степени сохраняют свою производительность. Они достигают результатов, сравнимых с цифровыми бейзлайнами (4-битные веса, 8-битные активации), и превосходят стандартные LLM или даже модели LLM-QAT (обучение с учётом квантования) в тех же условиях шума.

Например, аналоговая базовая модель Phi-3-mini-4k-instruct показала падение производительности всего на 3,7% по сравнению со своим FP16-аналогом под воздействием аппаратного шума и квантования. Это заметное улучшение по сравнению с падением на 7,11%, наблюдаемым у готовой модели при её прямом переносе на «железо». Авторы приводят средние значения и стандартные отклонения для оценок в условиях шума, основанные на 10 запусках с разными сидами, что придаёт этим результатам статистическую значимость.

Интересно, что устойчивость, привитая этим аналого-ориентированным обучением, даёт преимущества и при цифровом развёртывании. В статье показано, что эти аналоговые базовые модели можно квантовать после обучения для инференса на низкоточном цифровом оборудовании (например, с 4-битными весами и округлением до ближайшего (round-to-nearest)). При этом они достигают производительности, сравнимой или даже превосходящей модели, обученные с использованием передовых алгоритмов цифрового квантования, особенно при статических ограничениях квантования.

Более того, аналоговые базовые модели демонстрируют лучшее масштабирование вычислений на этапе инференса: их производительность улучшается более значительно, когда им разрешено генерировать несколько ответов и выбирать лучший, по сравнению с традиционно квантованными моделями. Это указывает на более общую устойчивость к низкоточным вычислениям. Модели также в значительной степени сохраняют свои способности следовать инструкциям и обеспечивать безопасность в условиях шума.

Результаты этого исследования открывают важные перспективы. Оно предлагает жизнеспособный путь для развёртывания сложных LLM на высокоэнергоэффективном AIMC-оборудовании, потенциально открывая новые применения, особенно в средах с ограниченными ресурсами или для крупномасштабного инференса, где энергопотребление — основное узкое место. Работа также неявно мотивирует дальнейшую разработку и масштабирование технологии AIMC-чипов, демонстрируя, что проблемы адаптации моделей на программном уровне могут быть эффективно решены. Тот факт, что методология обучения даёт модели, также хорошо подходящие для низкоточного цифрового оборудования, является дополнительным преимуществом, расширяя её применимость.

Авторы открыто говорят и об ограничениях. Обучение этих моделей с миллиардами параметров, даже с использованием предложенной методологии (которая использует лишь часть токенов из оригинального датасета предобучения), остаётся ресурсоёмким. Разрыв в производительности по сравнению с исходными FP16-моделями всё ещё существует, особенно на сложных задачах, требующих рассуждений, таких как GSM8K или MATH-500.

Преимущества от масштабирования обучающих данных, по-видимому, выходят на плато примерно на 20 миллиардах токенов из оригинального датасета предобучения. Это позволяет предположить, что одно лишь количество данных может не устранить оставшийся разрыв. Хотя модель шума, используемая для оценки, получена на основе реального оборудования, её обобщающая способность на весь спектр технологий AIMC-устройств и их уникальные профили шума остаётся открытым вопросом для более широкого внедрения. Модели также наследуют любые риски безопасности, присутствующие в базовых предобученных моделях.
🔥7👍2
Forwarded from gonzo_ML_podcasts
Направления будущих исследований, указанные авторами, включают изучение улучшений качества синтетических данных, разработку более ресурсоэффективных методов адаптации (возможно, с использованием низкоранговых адаптаций или методов постобучения) и продолжение усилий по сокращению разрыва в точности на задачах, требующих рассуждений.

В целом, это качественное исследование, предлагающее надёжное, масштабируемое и продуманное решение критической проблемы на стыке LLM и новых аппаратных средств. Демонстрируя, что большие базовые модели могут быть эффективно адаптированы к специфике аналоговых вычислений («analog-aware»), работа открывает путь к более энергоэффективному ИИ и продвигает эту область исследований. Хотя проблемы остаются (в частности, в сокращении разрыва в производительности на самых сложных задачах и обеспечении широкой аппаратной совместимости), это исследование закладывает прочную основу и даёт основания для оптимизма в отношении будущего аналоговых ИИ-ускорителей.
8