gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.71K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from gonzo_ML_podcasts
Analog Foundation Models
Julian Büchel, Iason Chalas, Giovanni Acampa, An Chen, Omobayode Fagbohungbe, Sidney Tsai, Kaoutar El Maghraoui, Manuel Le Gallo, Abbas Rahimi, Abu Sebastian
Статья: https://arxiv.org/abs/2505.09663
Код: https://github.com/IBM/analog-foundation-models

Неуклонный рост размеров и сложности больших языковых моделей (LLM) выдвинул на первый план острую необходимость в более энергоэффективных вычислительных парадигмах. Аналоговые вычисления в памяти (Analog In-Memory Computing, AIMC) выглядят здесь многообещающим решением: они потенциально способны существенно снизить энергопотребление за счёт выполнения умножения матрицы на вектор непосредственно в массивах памяти. Однако у AIMC-оборудования есть свои недостатки, главным образом — присущий ему шум и жёсткие ограничения квантования, которые могут серьёзно ухудшить производительность стандартных, предобученных LLM.

В этой статье авторы задаются ключевым вопросом: можно ли современные мощные LLM надёжно адаптировать для развёртывания на таком шумном, низкоточном аналоговом оборудовании? И если да, то как? Исследователи представляют «аналоговые базовые модели» (собственно, Analog Foundation Models), предлагая общий и масштабируемый метод для достижения именно этой цели. Они демонстрируют, что даже передовые модели могут сохранять производительность, сравнимую с сильными цифровыми бейзлайнами квантования, несмотря на неидеальности аналоговых вычислений.

Ключевая проблема заключается в том, что готовые LLM (off-the-shelf LLM), обычно обучаемые в форматах с высокой точностью (например, FP16), крайне чувствительны к аналоговому шуму и низкоточному квантованию, свойственному AIMC-системам. Как отмечают авторы, прямое развёртывание этих моделей на AIMC-оборудовании часто приводит к значительному падению производительности. Хотя предыдущие исследования изучали обучение с учётом аппаратных особенностей (Hardware-Aware Training, HWA), они преимущественно фокусировались на моделях меньшего размера, часто из области компьютерного зрения, или делали менее реалистичные предположения о характеристиках оборудования. Нынешняя работа выделяется тем, что нацелена на высокоёмкие, предобученные LLM, такие как Phi-3-mini и Llama-3.1 8B — модели, чьи исходные массивные датасеты предобучения зачастую недоступны.

Предложенная методология представляет собой тщательно проработанный трёхэтапный процесс. Сначала генерируются синтетические обучающие данные путём итеративной выборки из целевой предобученной LLM. Это позволяет обойти необходимость в оригинальных датасетах для обучения — важнейший практический момент. Затем новая «аналоговая базовая модель» обучается на этих синтетических данных с использованием дистилляции знаний (knowledge distillation), стремясь имитировать поведение исходной высокоточной модели.

Вся соль здесь в интегрированных на этом этапе техниках обучения с учётом аппаратных особенностей (HWA). К ним относятся:
* обучаемые статические диапазоны квантования для входных данных (имитируют цифро-аналоговые преобразователи (digital-to-analog converters));
* фиксированное глобальное статическое квантование выходных данных (имитирует аналого-цифровые преобразователи (analog-to-digital converters));
* поканальное добавление аддитивного гауссовского шума к весам во время прямого прохода (для имитации шума устройства);
* итеративное отсечение (clipping) весов после каждого шага оптимизатора (для поддержания компактного распределения весов, подходящего для энергонезависимых запоминающих устройств (non-volatile memory devices)).

Такой набор методов — это прямой ответ на известные ограничения AIMC-оборудования: например, необходимость статических диапазонов квантования (вместо динамических настроек для каждого токена, распространённых в цифровом квантовании) и неизбежное присутствие аналогового шума. Использование синтетических данных и дистилляции — прагматичное решение для адаптации проприетарных или очень больших моделей без доступа к их оригинальным обучающим корпусам.
10🔥9👍1
Forwarded from gonzo_ML_podcasts
Экспериментальные результаты весьма показательны. Аналоговые базовые модели, обученные по этой методологии, демонстрируют значительно улучшенную устойчивость к аппаратно-реалистичному шуму, который моделировался на основе существующего AIMC-чипа на базе памяти с изменением фазового состояния (PCM-based). При оценке с имитацией аналогового шума эти модели в значительной степени сохраняют свою производительность. Они достигают результатов, сравнимых с цифровыми бейзлайнами (4-битные веса, 8-битные активации), и превосходят стандартные LLM или даже модели LLM-QAT (обучение с учётом квантования) в тех же условиях шума.

Например, аналоговая базовая модель Phi-3-mini-4k-instruct показала падение производительности всего на 3,7% по сравнению со своим FP16-аналогом под воздействием аппаратного шума и квантования. Это заметное улучшение по сравнению с падением на 7,11%, наблюдаемым у готовой модели при её прямом переносе на «железо». Авторы приводят средние значения и стандартные отклонения для оценок в условиях шума, основанные на 10 запусках с разными сидами, что придаёт этим результатам статистическую значимость.

Интересно, что устойчивость, привитая этим аналого-ориентированным обучением, даёт преимущества и при цифровом развёртывании. В статье показано, что эти аналоговые базовые модели можно квантовать после обучения для инференса на низкоточном цифровом оборудовании (например, с 4-битными весами и округлением до ближайшего (round-to-nearest)). При этом они достигают производительности, сравнимой или даже превосходящей модели, обученные с использованием передовых алгоритмов цифрового квантования, особенно при статических ограничениях квантования.

Более того, аналоговые базовые модели демонстрируют лучшее масштабирование вычислений на этапе инференса: их производительность улучшается более значительно, когда им разрешено генерировать несколько ответов и выбирать лучший, по сравнению с традиционно квантованными моделями. Это указывает на более общую устойчивость к низкоточным вычислениям. Модели также в значительной степени сохраняют свои способности следовать инструкциям и обеспечивать безопасность в условиях шума.

Результаты этого исследования открывают важные перспективы. Оно предлагает жизнеспособный путь для развёртывания сложных LLM на высокоэнергоэффективном AIMC-оборудовании, потенциально открывая новые применения, особенно в средах с ограниченными ресурсами или для крупномасштабного инференса, где энергопотребление — основное узкое место. Работа также неявно мотивирует дальнейшую разработку и масштабирование технологии AIMC-чипов, демонстрируя, что проблемы адаптации моделей на программном уровне могут быть эффективно решены. Тот факт, что методология обучения даёт модели, также хорошо подходящие для низкоточного цифрового оборудования, является дополнительным преимуществом, расширяя её применимость.

Авторы открыто говорят и об ограничениях. Обучение этих моделей с миллиардами параметров, даже с использованием предложенной методологии (которая использует лишь часть токенов из оригинального датасета предобучения), остаётся ресурсоёмким. Разрыв в производительности по сравнению с исходными FP16-моделями всё ещё существует, особенно на сложных задачах, требующих рассуждений, таких как GSM8K или MATH-500.

Преимущества от масштабирования обучающих данных, по-видимому, выходят на плато примерно на 20 миллиардах токенов из оригинального датасета предобучения. Это позволяет предположить, что одно лишь количество данных может не устранить оставшийся разрыв. Хотя модель шума, используемая для оценки, получена на основе реального оборудования, её обобщающая способность на весь спектр технологий AIMC-устройств и их уникальные профили шума остаётся открытым вопросом для более широкого внедрения. Модели также наследуют любые риски безопасности, присутствующие в базовых предобученных моделях.
🔥7👍2
Forwarded from gonzo_ML_podcasts
Направления будущих исследований, указанные авторами, включают изучение улучшений качества синтетических данных, разработку более ресурсоэффективных методов адаптации (возможно, с использованием низкоранговых адаптаций или методов постобучения) и продолжение усилий по сокращению разрыва в точности на задачах, требующих рассуждений.

В целом, это качественное исследование, предлагающее надёжное, масштабируемое и продуманное решение критической проблемы на стыке LLM и новых аппаратных средств. Демонстрируя, что большие базовые модели могут быть эффективно адаптированы к специфике аналоговых вычислений («analog-aware»), работа открывает путь к более энергоэффективному ИИ и продвигает эту область исследований. Хотя проблемы остаются (в частности, в сокращении разрыва в производительности на самых сложных задачах и обеспечении широкой аппаратной совместимости), это исследование закладывает прочную основу и даёт основания для оптимизма в отношении будущего аналоговых ИИ-ускорителей.
8
This media is not supported in your browser
VIEW IN TELEGRAM
4
Всё, приехали!
🤣611🤯1🥴1
Gemini Ultra пока не дождались, зато дождались
* Супербыструю текстовую диффузию в Gemini Diffusion (5x faster than 2.0 Flash Lite)
* Улучшенную Gemini 2.5 Pro Deep Think
* Будущее развитие в направлении World models и Universal AI assistant
1👍6
А также появилась новая Gemma 3n, Matryoshka Transformer (MatFormer) для on-device deployments.

https://ai.google.dev/gemma/docs/gemma-3n
🔥12
Дождались ультры. Но не той.

250$ в месяц однако...
😁35😢31
Также неделя креатива объявляется открытой.

* Lyria 2. Our latest music generation model (waitlist)
* Flow. AI filmmaking tool на базе новой Veo 3 (US)
* Gemini 2.5 Native audio output. Может всё-таки до ризонинга шёпотом недалеко?
* Imagen 4. Новый генератор картинок, 10x быстрее и лучше предыдущего
🤗2