NEW BOT Телеграм, страница

7.21K views17:59

А вот и Навье-Стокс от Дипмайнда подоспел

https://deepmind.google/discover/blog/discovering-new-solutions-to-century-old-problems-in-fluid-dynamics/

Google DeepMind

Discovering new solutions to century-old problems in fluid dynamics

In a new paper, we introduce an entirely new family of mathematical blow ups to some of the most complex equations that describe fluid motion. Our approach presents a new way in which...

25❤45👍10🔥10👎2

9.38K views22:45

gonzo-обзоры ML статей

Pre-training under infinite compute
Konwoo Kim, Suhas Kotha, Percy Liang, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2509.14786
Код: https://github.com/marin-community/marin/tree/suhas/data-efficiency

Прикольная работа про законы скейлинга, разные экспоненты и пользу дистилляции и ансамблирования. Авторы задают очень интересный вопрос: в будущем, когда компьюта будет дофига, а данные кончатся, как наиболее эффективно обучать модели? Ответы интересны.

Исследование начинается с создания базового сценария, который имитирует текущую практику в условиях нехватки данных: берётся фиксированный датасет на 200М токенов, и для него либо увеличивается количество эпох обучения, либо масштабируется число параметров модели. Результаты не слишком удивляют: оба подхода в конечном итоге приводят к переобучению, когда лосс на валидации выходит на плато, а затем начинает расти. Это показывает, что простое вливание большего количества вычислений в существующие рецепты даёт убывающую и в конечном счёте отрицательную отдачу, ограничивая достижимую производительность.

Вопрос, что можно сделать по-другому?

Вместо оценки производительности при фиксированном вычислительном бюджете авторы предлагают измерять конечный потенциал рецепта обучения по асимптоте его закона масштабирования. Найдя методы, которые заставляют лосс монотонно убывать с ростом вычислений, можно аппроксимировать эту зависимость степенным законом и экстраполировать производительность при стремлении вычислений к бесконечности. Эта асимптота представляет собой наилучший возможный лосс, которого данный рецепт может достичь на фиксированном датасете, что даёт более надёжную метрику для будущего с избытком вычислительных ресурсов.

Ядро статьи заключается в поиске простых, но эффективных алгоритмических приёмов, которые обеспечивают желаемое монотонное масштабирование и приводят к более низким асимптотам лосса.

1. Агрессивная регуляризация для масштабирования параметров

Ключ к предотвращению переобучения при масштабировании параметров одной модели -- это правильная регуляризация. Авторы обнаружили, что совместный подбор скорости обучения, количества эпох и weight decay для каждого размера модели позволяет достичь чистого, монотонного убывания лосса, которое следует степенному закону. Этот результат согласуется с современной теорией машинного обучения о сверхпараметризации и «двойном спуске» (double descent, https://news.1rj.ru/str/gonzo_ML/832), когда производительность очень больших моделей может ухудшиться, прежде чем снова начать улучшаться. Статья показывает, что при правильной настройке регуляризации эту проблемную область можно сгладить, получив чистый закон масштабирования.

Ключевой вывод заключается в том, что оптимальное значение затухания весов для сверхпараметризованных моделей значительно выше стандартной практики -- вплоть до 30x. Такая агрессивная регуляризация позволяет более крупным моделям продолжать улучшаться там, где их нерегуляризованные аналоги переобучились бы. Для датасета в 200M токенов этот регуляризованный рецепт следует степенному закону L̂₂₀₀ₘ,ₙ = 0.05 / N¹·⁰² + 3.43, что предсказывает наилучшую асимптоту лосса в 3.43.

2. Ансамблирование: лучший путь к масштабированию

❤11👍8

7.34K views22:40

gonzo-обзоры ML статей

Хотя регуляризация решает проблему масштабирования одной модели, авторы задаются вопросом, есть ли лучший способ потратить бесконечные вычислительные ресурсы. Мы все знаем про пользу ансамблирования. Кажется, на Каггле это традиционно был универсальный рецепт -- в любой непонятной ситуации делай ансамблирование. Обучая несколько (K) независимых моделей фиксированного размера и усредняя их логиты, они достигают значительно более низкой асимптоты лосса. Например, ансамбль моделей на 300M параметров даёт асимптоту 3.34, что лучше, чем 3.43 (цифры как назло такие, что легко перепутать), достигаемая при масштабировании одной модели до бесконечного числа параметров. Авторы объясняют это, ссылаясь на гипотезу «множественных представлений» (multi-view) от Allen-Zhu и Li (https://arxiv.org/abs/2012.09816). Идея в том, что для данного датасета может существовать много различных наборов предсказательных признаков. Одна модель часто склонна выучивать только одно из этих представлений, в то время как независимо обученные члены ансамбля с большей вероятностью выучат разные. Усреднение их выходов позволяет уловить более полный сигнал. Это, кстати, неплохо перекликается с другой недавней работой про то, как лучше выучивать хорошие фичи (https://news.1rj.ru/str/gonzo_ML/4009), там тоже рецепт был в обучении нескольких моделей и их конкатенации.

Это означает, что при достаточно большом общем количестве параметров эффективнее обучать кучу небольших моделей, чем одного монолитного гиганта. Авторы также обнаружили, что оптимальные гиперпараметры для членов ансамбля (настроенные для предела K → ∞) предпочитают большее количество эпох и меньшее затухание весов по сравнению с одиночной моделью. Интуитивно это позволяет каждому члену ансамбля стать слегка переобученным «специалистом».

Объединение этих двух стратегий -- совместный рецепт масштабирования, где и количество параметров каждого члена (N), и число членов ансамбля (K) стремятся к бесконечности, — даёт наименьшую возможную асимптоту лосса, оценённую в 3.17 для датасета в 200M токенов. Интересно, кстати, какое место здесь занял бы MoE, он выглядит как более срединный путь.

Эти алгоритмические улучшения приводят к значительному выигрышу в эффективности использования данных. На масштабе 200M токенов совместный рецепт масштабирования оказывается в 5.17 раз более эффективным по данным, чем стандартный. Анализируя масштабирование на более крупных датасетах (до 1.6B токенов), авторы показывают, что этот прирост эффективности, по прогнозам, останется постоянным, поскольку законы масштабирования по данным для всех рецептов убывают с одинаковой скоростью.

И тут начинается особенно интересная часть.

Вычислительные затраты на обучение и запуск больших ансамблей могут показаться непрактичными. Однако статья демонстрирует, что эти улучшения производительности можно упаковать в меньшие, эффективные модели с помощью дистилляции. Про виды дистилляции мы писали много (https://news.1rj.ru/str/gonzo_ML/117), поищите поиском по каналу. Здесь рассматриваются два:

* Дистилляция ансамбля: Ансамбль из 8 членов (с общим числом параметров 2.4B) был дистиллирован в одну модель-студента на 300M параметров. Этот студент, с в 8 раз меньшим бюджетом на инференс, сохранил 83% улучшения лосса ансамбля по сравнению с лучшей регуляризованной 300М-моделью и даже превзошёл асимптоту регуляризованного рецепта.

👍13❤3🔥3

3.44K views22:40

gonzo-обзоры ML статей

* Самодистилляция: Ещё более удивительно, что авторы показывают, как самодистилляция (тоже упоминалась в канале не раз, один из интересных кейсов тут https://news.1rj.ru/str/gonzo_ML/202) -- когда модель на 300M параметров выступает учителем для нового 300М-студента той же архитектуры -- может привести к лучшей модели. Обучая студента на смеси реальных и синтетических данных от учителя, студент превосходит своего учителя, достигая асимптоты регуляризованного рецепта без необходимости в более крупной модели на каком-либо этапе обучения. Это не просто трюк с аугментацией данных; в статье предполагается, что это можно интерпретировать как форму неявного ансамблирования, сродни объединению исходного учителя с вновь инициализированным студентом, что позволяет студенту найти лучшее решение. Это интересный механизм аугментации данных, причём ключевым моментом является необходимость подмешивать реальные данные, чтобы избежать коллапса модели.

Статья подтверждает, что эти улучшения -- не просто артефакты лосса на валидации. Выигрыш напрямую переносится на нижестоящие задачи: лучший ансамбль превосходит лучшую нерегуляризованную модель в среднем на 9% на бенчмарках PIQA, SciQ и ARC Easy.

Более того, методы оказываются высокоэффективными в сценарии continued pre-training (CPT). При применении к математическому датасету ансамбль, обученный всего на 4B токенов данных, превзошёл базовую модель, обученную на полных 73B токенов, достигнув 17.5-кратного улучшения эффективности данных.

Остаются и вопросы. Идея асимптоты опирается на экстраполяцию степенных законов, которая , может быть шумной, и результаты следует интерпретировать как приблизительные оценки. Эксперименты, хоть и обширны, проводились на моделях до 1.4B параметров, может на других масштабах что-нибудь происходит. Тем не менее, результаты интересные.

arXiv.org

Pre-training under infinite compute

Since compute grows much faster than web text available for language model pre-training, we ask how one should approach pre-training under fixed data and no compute constraints. We first show that...

1👍28❤3❤‍🔥1🔥1

3.37K views22:40

gonzo-обзоры ML статей

3.4K views22:40

gonzo-обзоры ML статей

3.36K views22:41

gonzo-обзоры ML статей

3.51K views22:42

gonzo-обзоры ML статей

3.85K views22:42

gonzo-обзоры ML статей

4.26K views22:42

gonzo-обзоры ML статей

4.36K views22:42

gonzo-обзоры ML статей

4.66K views22:43

gonzo-обзоры ML статей

5.31K views22:43

gonzo-обзоры ML статей

5.51K views22:43

gonzo-обзоры ML статей

5.61K views22:43

gonzo-обзоры ML статей

4.9K views22:44

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

5K views22:49

1👍10❤5

gonzo-обзоры ML статей

Мы уже писали про варианты JEPA, например, JEPA для time series (https://news.1rj.ru/str/gonzo_ML_podcasts/513) или для видео, типа V-JEPA (https://news.1rj.ru/str/gonzo_ML/3501) и V-JEPA 2 (https://news.1rj.ru/str/gonzo_ML/3953). Теперь JEPA доехала до LLM и есть LLM-JEPA!

https://news.1rj.ru/str/gonzo_ML_podcasts/880

Результат интересный. Главный челлендж, как для языковых данных создавать различные view.

gonzo_ML_podcasts

LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
Authors: Hai Huang, Yann LeCun, Randall Balestriero
Paper: https://arxiv.org/abs/2509.14252
Code: https://github.com/rbalestr-lab/llm-jepa
Review: https://arxiviq.substack.com/p/llm…

😁11❤‍🔥6🔥3❤1

6.56K views10:49

gonzo-обзоры ML статей

👍1

5.97K views10:50

gonzo-обзоры ML статей

Когда же уже R2 наконец?!

DeepSeek-V3.1 → DeepSeek-V3.1-Terminus

✨ What’s improved?
🌐 Language consistency: fewer CN/EN mix-ups & no more random chars.
🤖 Agent upgrades: stronger Code Agent & Search Agent performance.

https://x.com/deepseek_ai/status/1970117808035074215?t=zuXvRjUBudH5diKElMnijg&s=19

X (formerly Twitter)

DeepSeek (@deepseek_ai) on X

🚀 DeepSeek-V3.1 → DeepSeek-V3.1-Terminus
The latest update builds on V3.1’s strengths while addressing key user feedback.

✨ What’s improved?
🌐 Language consistency: fewer CN/EN mix-ups & no more random chars.
🤖 Agent upgrades: stronger Code Agent & Search…

👍5😁3❤1

6.43K views19:18

gonzo-обзоры ML статей

❤1

6.57K views19:18

About

Blog

Apps

Platform