NEW BOT Телеграм, страница

КПД

Походу MoonShot-AI использовали нашу кодобазу MoE-Quant для квантизации модельки.

- Конфиг Kimi-K2-Thinking
- Скрипт конвертации в compressed-tensors

Мелочь, а приятно)

🔥32

2.12K viewsedited 18:06

КПД

CAGE: CURVATURE-AWARE GRADIENT ESTIMATION FOR ACCURATE QUANTIZATION-AWARE TRAINING
[Статья][Код пока недоступен]

Введение

С ростом масштабов и, соответственно, стоимости обучений больших языковых моделей все острее стоит вопрос эффективного обучения. В ряде прошлых работ (QuEST, Quartet, FP4 All the way, Training LLM with MXFP4) было показано, что можно успешно обучать с весами и активациями в низкой точности, применив некоторые специальные техники.

И данная работа продолжает работу в данном направлении, модифицируя алгоритм оптимизатора.

🔥4❤1

2.27K views16:37

КПД

🔬 Метод

В основе Quantization Aware Training (QAT) обыкновенно лежит STE (или его модификация), когда градиент просто пробрасывается через не дифференцируемую операцию квантизации. Трюк рабочий, но не имеет под собой теоретических гарантий.

Авторы предлагают рассматривать QAT как задачу оптимизации с ограничениями, и переходят к задаче безусловной оптимизации с множителем Лагранжа:

min L(w) = min L_orig (w) + λ (Q(x) - x)

величина λ определяет баланс между лоссом задачи и ограничением. Такая добавка математически эквивалента добавлению error feedback. И рассматривают два варианта - coupled/decoupled - где добавка подается в градиент или момент, но в итоге выбирают decoupled, как более удобный.

В качестве базового алгоритма оптимизации берут AdamW и CAGE отличается от него только наличием error feedback.

Для лучшей сходимости метода константа регуляризации λ разогревается от 0 до максимального значения.

🧪Эксперименты

Метод валидируют, обучая семейство моделей Llama от 30 до 800 M параметров. CAGE стабильно дает некоторое улучшение по лоссу по сравнению с базовым алгоритмом QuEST для разных битностей.

Так называемая эффективная емкость (просадка по лоссу в scaling laws нормализованная на битность) примерно на 0.5 лучше по сравнению с QuEST.

CAGE успешно работает и с MXFP4.

На модельной квадратичной задаче SGD/Adam с STE не могут попасть в оптимум при 4-битной квантизации, а CAGE могет.

💡 Выводы

Метод выглядит вполне себе рабочим и интересным. Было бы интересно посмотреть его в действии на больших обучениях моделей на Blackwell чипах для MXFP4/NVFP4 форматов.

🔥7❤1

3.01K viewsedited 16:39

КПД

Дискуссии между авторами и рецензентами, которые мы заслужили.

😁37🌚7👍4🤡2❤1

4.12K views15:11

КПД

На этой неделе ребята из команды YandexGPT совместно c ШАДом (Школа анализа данных) провели интенсив по работе с LLM 🤖, где были затронуты вопросы обучения, инференса и коммуникаций.

Материал довольно подробный и интересный, но требует определенной базы для вхождения.

В общем, рекомендую к просмотру всем интересующимся и желающим освежить знания.

Лекция 1: https://youtube.com/live/JMUWSdSD1Uk
Лекция 2: https://youtube.com/live/IAeAKcdMtsw
Лекция 3: https://youtube.com/live/BYiFv5PoMBw
Лекция 3.1: https://youtube.com/live/-52RgKQENl0
Лекция 4: https://youtube.com/live/VXI41kyQTPs
Лекция 5: https://youtube.com/live/AHMJICS2JQ0
Лекция 5.1: https://www.youtube.com/live/3v43mnx31OQ

Youtube

- YouTube

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

🔥24❤5👍4

34.1K viewsedited 17:13

КПД

Демка оценивающая оптимальный шаг обучения и размер батча для модели заданного размера, количества токенов на обучении и ширины эмбеда на основе формул из статьи про первый DeepSeek 🐋.

Оно еще предлагает конфигурации распараллеливания для разного количества нод.

Формула, правда, ломается для очень маленьких моделей.

👍12👀5

2.32K viewsedited 19:13

КПД

Пофиг на все остальное.

Главное, что ARC-AGI 2 заметно подрос.

👍15❤3😁2🔥1💩1

1.99K views12:25

КПД

SMOL_секреты_создания_LLM_мирового_класса_Перевод_t_me_aivkube.pdf

14.6 MB

Русскоязычный перевод The Smol Training Playbook от @sergeydolgov с качественной версткой.

Оригинальный материал представляет собой очень полезное пособие по обучению LLM, да и DL в целом.

👍20💩4🔥3❤2❤‍🔥1

2.35K views09:01

КПД

BEYOND OUTLIERS: A STUDY OF OPTIMIZERS UNDER QUANTIZATION
[Статья] [Кода нет]

Введение

Существует целый зоопарк оптимизаторов, использующих тот или иной механизм предобусловливания. И некоторые из них, в частности Muon, уже вполне себе составляют конкуренцию Adam-у.

Кроме того для более эффективного инференса модели можно квантизовать.

И отсюда возникает вопрос - есть ли взаимосвязь между сложностью квантизации и оптимизатором на обучении? Может ли быть так, что некоторые алгоритмы производят модели более податливые к сжатию, а другие нет 🤔?

И в рассматриваемой работе изучили данный вопрос систематически.

🔥10👍4❤1

1.78K views14:53

КПД

🔬 Метод

Берут 6 оптимизаторов:
📌 AdamW
📌 PSGD
📌 Shampoo
📌 Muon
📌 Scion
📌 SOAP

и обучают семейство OLMo2-like трансформеров от 50M до 1.5B параметров Шиншилла-оптимальное количество токенов. Learning rate подобран на меньшей модели, а затем масштабируется на большие как 1 / размер.

Обучают fp16 бейзлайн и 4-х битные модели с квантизацией весов и активаций. Рассматривают PTQ (квантизацию fp16 модели) и QAT (Quantization-Aware Training).

В прошлых статьях в качестве прокси на сложность квантизации смотрели на отношение максимума по модулю к медиане (MMR) и kurtosis (4-ый момент распределения). Первая метрика показывает насколько выбросы отличаются от среднего, а вторая - “тяжесть” хвостов квантизации.

Оказывается 😱, что эти метрики не слишком коррелированны с реальной просадкой качества. Шампунь имеет большой MMR и kurtosis, но при этом обученные им модели легче всего квантизуются.

Из интересного, замечают что MMR растет с повышением learning rate, что, в целом, ожидаемо, так как у весов/активаций больше возможностей убежать от среднего. При этом MMR наименьший у Muon.

Взамен предлагают свою метрику - относительную послойную ошибку (квадрат нормы разности неквантизованной активации и квантизованную деленный на квадрат нормы первой) и показывают, что она гораздо лучше связана с результатами на бенчах.

🔥5

1.44K viewsedited 14:56

КПД

🧪Эксперименты

Модели обучают на корпусе ClimbMix. Для замеров берут стандартные бенчи из lm-eval-harness.

Для QAT используется рецепт из QuEST (Адамаровы вращения + стохастическое округление).

Без квантизации лучшие результаты на меньших моделях выдает SOAP 🧼, а остальных - Muon. Для PTQ в большинстве случаев Shampoo выходит победителем. В QAT режиме нет однозначного победителя, но на больших моделях будто бы “средство для мытья головы” снова предпочтителен.

Для разных моделей фитируют коэффициент эффективного размера ρ в законе;

L = A / (N · ρ)^α + B

В соответствии с результатами выше, он наибольший у Shampoo и наименьший у Muon. Adam следующий по хорошести.

💡 Выводы

Довольно интересный и практически полезный результат учитывая растущие потребности в получении качественных низкобитных результат. Интересно, обобщаются ли полученные выводы на другие битности (более высокие или низкие), и соотношения размера обучающих данных к размеру модели (много Шиншилл). Станет ли это мотивацией для более пристального внимания к Shampoo или оверхед на внедрение и настройку перебьет потенциальные бенефиты 🤔?

🔥4

1.72K views14:57

КПД

11 декабря в Москве пройдет встреча ML Global Recap'25, посвященная основным международным AI конференциям и главным трендам
в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.

Список выступающих и доклады:

🔸 Алексей Гусаков, CTO Поисковых сервисов и ИИ. Откроет ивент кратким обзором NeurlPS
🔸 Борис Шелудько, руководитель команды качества звука. Расскажет про последние тренды по звуку и рассмотрит статьи с Interspeech
🔸 Николай Савушкин, руководитель команды рекомендательных технологий. Выступит с докладом про CIKM и RecSys и тренды в рекомендательных решениях
🔸 Роман Исаченко, руководитель команды анализа и изображений. Расскажет про тренды в компьютерном зрении и детально рассмотрит ICLR
🔸 Александр Юшкевич, руководитель команды развития моделей базового качества. Расскажет про тренды в NLP и поделится новостями с ICLR и ACL

📅 Когда: 11 декабря в 18:00
🏙️ Где: в Москве и онлайн

Приглашаются все желающие.

❤4

2.09K viewsedited 10:28

КПД

Ваша реклама за сырок Александрова)

🔥4

2.06K views10:33

КПД

Красивая демка про квантизацию в MXFP4

👍5🤯4

2.17K views06:48

КПД

- Где аттеншен? Покажи мне аттеншен!
- На, bl*t!

[Исходник]

😁34

2.16K views15:05

КПД

Back to Basics: Let Denoising Generative Models Denoise
[Статья][Код]

Введение

На данный момент в области генерации изображений и видео доминирует латетная диффузия, использующая вспомогательную сеть - автоэнкодер - для отображения в пространство с меньшей пространственно-временной размерностью. В таком пространстве и диффузионный процесс дешевле и качество хорошее.

Но что если очень хочется 🤔гонять диффузию в пиксельном пространстве, на больших пиксельных патчах?

И авторы сегодняшней статьи (один из них не абы кто, а создатель Резнета 👑) предлагают рабочий рецепт пиксельной диффузии в сравнительно большой размерности.

🔥9

1.82K views17:50

КПД

🔬🧪 Метод и эксперименты

Известно, что естественные изображения заметают не все возможные комбинации пикселей, а лежат на некотором подпространстве.

При обучении диффузионных моделей используются обыкновенно 3 типа предсказания:

📌Предсказание расшумленного сэмпла - x0
📌Предсказание шума epsilon
📌Предсказание скорости - v (взвешенная комбинация x0 и eps)

Математически вроде бы все формулировки эквивалентны (с точностью до изменения коэффициентов перед лоссом). Однако на подпространстве лежит лишь x0, в то время как шум и, соответственно, скорость заметают все пространство.

Отсюда авторы делают предположение, что учиться на x0 должно быть проще, чем на \epsilon или скорости.

Для валидации гипотезы сэмплируют данные в виде 2-мерной спирали, вложенной в пространство большой размерности. И оказывается, что начиная с какого-то момента v-prediction и eps-prediction работает плохо, а x0 - хорошо.

Затем гипотезу проверяют уже на большем масштабе. Берут Vision Transformer, который называют просто Just Image Transformer (JiT, не путать с JiT-компиляцией), нарезают картинку на большие патчи (16x16, 32x32), и гоняют в таком пространстве диффузию на ImageNet-256/512.

Все варианты, кроме x0-prediction работают из ряда вон плохо, и тюнинг уровня шума не помогает. x0-prediction же работает сносно. Оказывается, что добавление дополнительного боттлнека после патчевалки даже немного улучшает качество.

Далее в модель накидывают ряд архитектурных модификаций, отходя от классического DiT - SwiGLU, RMSNorm-ы, RoPE и 32 in-context класс токена, что немного улучшает метрики.

Итоговый результат не SOTA 🏆, но вполне пристойный.

💡 Выводы

Интерпретация через manifold learning выглядит интересно. Однако вход в модель-то все равно (зашумленный сэмпл) остается чем-то лежащим в пространстве высокой размерности. Интересно, перенесутся ли полученные результаты на class-conditional случай.

❤7👏5👍2

2.17K viewsedited 17:52

КПД

Маленький коммит для человека, огромный скачок для человечества.

Можно теперь в резюме на LinkedIn хвастаться.

🤪28🔥5🤡3❤1

1.78K views09:00

КПД

THE UNSEEN FRONTIER: PUSHING THE LIMITS OF LLM SPARSITY WITH SURROGATE-FREE ADMM
[Статья][Нет кода]

Введение

В отличие от квантизации методы прунинга для LLM не получили такого широкого распространения, с одной стороны, из-за аппаратной поддержки, а с другой, из-за больших просадок качества даже при сравнительно слабом прореживании - 50-60%.

В рассматриваемой работе авторы. вероятно, похожие на группу BTS, вместо с Дэном Алистаром предложили метод, основанный на ADMM, позволяющий доходить до высоких степеней прореживания (до 90%), сохраняя при этом когерентную генерацию.

⚡6👍1

1.71K views15:12

КПД

🔬 Метод

Задача нахождения оптимальной прореженной сети суть задача оптимизации с ограничениями. Как известно, задачу с условиями можно перевести в безусловную, введя множители Лагранжа. И итерационный процесс, задаваемый ADMM, позволяет ее эффективно решать.

Но как определить задачу? MSE между весами сжатой и не сжатой модели - не лучший критерий из-за разной чувствительности модели к изменению разных весов. И в качестве метрики предлагают матрицу Гессе (вторых производных функции потерь). Но так как ее точно посчитать нереалистично на практике, ее просто заменяют диагональным Фишером - квадратом градиентов.

Для больших моделей градиенты можно квантизовать в более низкую битность (как в Adam-8bit).

🧪 Эксперименты

Метод валидируют на моделях из разных эпох. От допотопного OPT до не таких старых Llama-3.2 и Gemma 3.

При высоких уровнях прореживания (70%-90%) ELSA выдает 2-значную перплексию, в то время как остальные методы (SparseGPT, Wanda, L-ADMM) улетают в космос 🚀.

При умеренном прореживании ELSA не всегда лучшая (ALPS и SAFE выглядят несколько получше), но, в целом, вполне себе рабочая 🛠.

ELSA лучше скейлится по данным по сравнению с L-ADMM (где минимизируется ошибка на выходе слоя, вместо Фишеровской метрики)

💡 Выводы

Любопытно, что довольно грубое Фишероское диагональное приближение в связке с ADMM выстрелило так неплохо для высокой sparsity. С точки зрения практиков просадки все равно слишком серьезные, чтобы разреженность конкурировала с квантизацией или вариантом взять модель поменьше, тем не менее, это все же серьезный прогресс.

🔥7❤1

1.99K viewsedited 15:14

КПД

PixelDiT: Pixel Diffusion Transformers for Image Generation
[Статья] [Кода нет]

Введение

В последнее время в диффузионных моделях пошла мода на отказ от латентной диффузии с использованием VAE, переход к генерации напрямую в пиксельном пространстве.

И в разбираемой статье коллектив авторов предложил решение, якобы выдающее лучшее качество в сравнении с прошлыми подходами и могущее в криспи 🍒 генерации.

❤4

1.29K views17:33

About

Blog

Apps

Platform