NEW BOT Телеграм, страница

👾

LLM'ки тоже учатся поэтапно: от зазубривания неравенства Коши-Буняковского до понимания, когда его применить

Много разговоров ведется на тему того, обучается ли модель качественно новым навыкам через RL, или лучше выбирает цепочку и выдает то, что и так могла воспроизвести на pass@k. Одна из активно исследуемых идей гласит, что во время RL модель учится композиции атомарных навыков для решения комплексных задач

Вот неплохой блог-пост по теме: 😳From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones

А вот новая статья: 🌟Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning и её метод HICRA

Тут авторы эмпирически демонстрируют, что на первых порах RL тренировки модели осваивают инструментарий базовых навыков, а далее переходят к обучению навыкам стратегического планирования процесса решения. Проверяли, в основном, на мат. задачках

📕 Рассуждения в случае математической задачки можно формализовать как набор атомарных шагов (посчитать выражение, применить теорему, преобразовать,….). Но управляют ими мета-действия, которые решают, а что делать дальше (положим…, допустим…, следует…, по неравенству треугольника…, по лемме о вложенных отрезках…,)

🍂 Авторы выделили два типа токенов в CoT: execution-токены и planning-токены. Токены планирования формализуют через Strategic Grams (SGs) — короткие n‑граммы, которые управляют ходом решения (те самые мета-действия ☝).

🍂 Далее отследили поведение токенов через perplexity и entropy, то есть они наблюдали за тем, насколько модель уверенно генерит их и насколько активно модель исследует каждое из двух пространств

1 💻: оттачиваем инструменты

Relative perplexity у execution-токенов быстро уходит в плато. Это значит, что модель становится увереннее в базовых шагах. Модель как бы сперва строит toolbox из процедурных навыков, а после перестает активно исследовать процедурные токены, и переходит к развитию «планирования»

2 💻 : учимся планировать

Semantic diversity у planning-токенов растет, причем у более “сильных” базовых моделей это происходит сразу, минуя фазу построения toolbox’а. При этом модель не начинает повторять одни и те же паттерны, наоборот, она научается эффективно и корректно пользоваться разнообразными strategic паттернами в CoT. Параллельно с этим на тесте цепочки рассуждений модели становятся длиннее, а accuracy растет (см. картинку).

👻 Важно: энтропия отдельных токенов не особо показательна, так как включает в себя все токены, даже несмысловые, типо форматирования

Помните статью про high/low entropy токены (✨Beyond the 80/20 Rule), где 20% токенов определяли почти всю производительность GRPO? Там авторы заметили токены-развилки, и предложили тренировать их. Тут же выяснили важную деталь: далеко не все high-entropy токены реально важны для стратегического планирования. Многие имеют высокую энтропию из-за вариаций в формулировках (см. картинку).

Стоит отметить, что наблюдение не универсально. Qwen вот так тренируется, но например, в Llama-3.1 8B паттерн иной. Предполагают следующее: на этапе RL уже нужна прочная база процедурных навыков, у Llama ее недостает, потому динамика нестабильна

😀

HICRA: практическое применение инсайтов

Классический GRPO раздаёт кредит всем токенам равномерно. Тут исследователи предложили алгоритм, который дает больше веса advantage для токенов планирования

HICRA показывает стабильный прирост метрик на математических бенчах AIME24/25, Math500 и др, а также на мульти-модальном ризонинге; причем ошибки снижаются во многом за счет уменьшения ошибок планирования!

На мой взгляд подход валидный, особенно идея рассмотреть стратегические n-gram’ы, которые четче отражают динамику обучения, чем отдельные токены. Более того, есть смысл смотреть именно на semantic diversity и как оно прогрессирует, чем на энтропию токенов. Для математики ключевыми являются strategic grams, но для других задач важную семантическую функцию рассуждений будут иметь другие конструкции.

🕯 Как вам такой взгляд на RL?

Please open Telegram to view this post