Golden Ratio Weighting Prevents Model Collapse
https://arxiv.org/abs/2502.18049
https://www.alphaxiv.org/overview/2502.18049
Для предотвращения коллапса генеративной модели при обучении на смеси реальных и синтетических данных, они должны быть взяты в соотношении золотого сечения (Golden Ratio).
Когда модели обучаются исключительно на синтетических данных, сгенерированных предыдущими моделями, информация ухудшается с каждой итерацией, что в конечном итоге приводит к значительному ухудшению качества. В данной работе решается эта фундаментальная проблема путем разработки теоретически обоснованной стратегии смешивания, которая использует как вновь собранные реальные данные, так и синтетические данные.
https://arxiv.org/abs/2502.18049
https://www.alphaxiv.org/overview/2502.18049
Для предотвращения коллапса генеративной модели при обучении на смеси реальных и синтетических данных, они должны быть взяты в соотношении золотого сечения (Golden Ratio).
Когда модели обучаются исключительно на синтетических данных, сгенерированных предыдущими моделями, информация ухудшается с каждой итерацией, что в конечном итоге приводит к значительному ухудшению качества. В данной работе решается эта фундаментальная проблема путем разработки теоретически обоснованной стратегии смешивания, которая использует как вновь собранные реальные данные, так и синтетические данные.
What Textbooks Don't Tell You About Curve Fitting
https://www.youtube.com/watch?v=q7seckj1hwM
Откуда на самом деле происходит оптимизация квадрата ошибки? Из Гаусса.
https://www.youtube.com/watch?v=q7seckj1hwM
Откуда на самом деле происходит оптимизация квадрата ошибки? Из Гаусса.
👍3
ZClip: Adaptive Spike Mitigation for LLM Pre-Training
https://arxiv.org/abs/2504.02507
https://www.alphaxiv.org/ru/overview/2504.02507
Всплески потерь (loss spikes) — это внезапные, резкие увеличения потерь при обучении, которые могут нарушить обучение. Эти всплески часто связаны с большими нормами градиента.
ZClip эффективно смягчает выбросы потерь и достигает значительно более низких значений.
https://arxiv.org/abs/2504.02507
https://www.alphaxiv.org/ru/overview/2504.02507
Всплески потерь (loss spikes) — это внезапные, резкие увеличения потерь при обучении, которые могут нарушить обучение. Эти всплески часто связаны с большими нормами градиента.
ZClip эффективно смягчает выбросы потерь и достигает значительно более низких значений.
This media is not supported in your browser
VIEW IN TELEGRAM
Ночник-проводник до туалета посреди ночи.
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Механический двоично-десятичный дешифратор.
🔥6
Rethinking RoPE: A Mathematical Blueprint for N-dimensional Positional Encoding
https://arxiv.org/abs/2504.06308
https://www.alphaxiv.org/ru/overview/2504.06308
Авторы используют теорию групп Ли и алгебр Ли для предоставления строгого математического фреймворка для RoPE. Центральным результатом работы является то, что любая допустимая N-мерная RoPE должна лежать в базисе максимальной абелевой подалгебры (MASA) специальной ортогональной алгебры Ли.
https://arxiv.org/abs/2504.06308
https://www.alphaxiv.org/ru/overview/2504.06308
Авторы используют теорию групп Ли и алгебр Ли для предоставления строгого математического фреймворка для RoPE. Центральным результатом работы является то, что любая допустимая N-мерная RoPE должна лежать в базисе максимальной абелевой подалгебры (MASA) специальной ортогональной алгебры Ли.
Так себе забег вышел. Tiangong победил.
This media is not supported in your browser
VIEW IN TELEGRAM
Language models thinking step by step to do arithmetic...
(How) Do reasoning models reason?
https://arxiv.org/abs/2504.09762v1
https://www.alphaxiv.org/ru/overview/2504.09762
В статье оспаривается предположение о том, что простая тренировка LLM на "цепочках мыслей" обязательно приводит к подлинным способностям к рассуждению.
Авторы предполагают, что обученные (post-training) LRM можно понимать как итеративную компиляцию рассуждений в извлечение. С этой точки зрения, то, что кажется рассуждением, на самом деле может быть сложным сопоставлением с образцом (pattern matching), основанным на ранее встречавшихся примерах и решениях.
Подходы chain-of-thought можно рассматривать как предоставление соответствующих расширений промпта, которые приводят к более точным заключениям, а не как включение подлинных пошаговых рассуждений.
Математическая формулировка этой точки зрения может быть выражена как:
Это говорит о том, что успех LRM может быть больше связан с поиском эффективных стратегий расширения промптов, чем с развитием внутренних возможностей рассуждения.
https://arxiv.org/abs/2504.09762v1
https://www.alphaxiv.org/ru/overview/2504.09762
В статье оспаривается предположение о том, что простая тренировка LLM на "цепочках мыслей" обязательно приводит к подлинным способностям к рассуждению.
Авторы предполагают, что обученные (post-training) LRM можно понимать как итеративную компиляцию рассуждений в извлечение. С этой точки зрения, то, что кажется рассуждением, на самом деле может быть сложным сопоставлением с образцом (pattern matching), основанным на ранее встречавшихся примерах и решениях.
Подходы chain-of-thought можно рассматривать как предоставление соответствующих расширений промпта, которые приводят к более точным заключениям, а не как включение подлинных пошаговых рассуждений.
Математическая формулировка этой точки зрения может быть выражена как:
Для модели с параметрами θ и функцией расширения промпта PA:
P(Правильный ответ | Вопрос, θ, PA) > P(Правильный ответ | Вопрос, θ)
Это говорит о том, что успех LRM может быть больше связан с поиском эффективных стратегий расширения промптов, чем с развитием внутренних возможностей рассуждения.
This media is not supported in your browser
VIEW IN TELEGRAM
T1 от Booster Robotics.
Sparse Hash AI
Так себе забег вышел. Tiangong победил.
This media is not supported in your browser
VIEW IN TELEGRAM
Разрабов заставили оторвать пятую точку от кресел и бежать за своим изделием. )