Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
https://arxiv.org/abs/2505.10554v1
https://www.alphaxiv.org/ru/overview/2505.10554
В основе статьи лежит концепция трех фундаментальных мета-способностей рассуждения, которые составляют основу человеческого и искусственного рассуждения: дедукция, индукция и абдукция.
Авторы создают набор синтетических задач, специально разработанных для каждой мета-способности, и обучают специализированные модели для каждой мета-способности. После обучения объединяют их в унифицированную модель с использованием взвешенной комбинации в пространстве параметров.
Объединенная модель превосходит отдельные специализированные модели, подтверждая, что мета-способности дополняют друг друга. Оптимальная производительность достигается при весах λd=1.0, λi=0.2 и λa=0.1, что предполагает, что дедуктивное рассуждение обеспечивает самую прочную основу, а индуктивное и абдуктивное рассуждения служат дополнительными возможностями.
https://arxiv.org/abs/2505.10554v1
https://www.alphaxiv.org/ru/overview/2505.10554
В основе статьи лежит концепция трех фундаментальных мета-способностей рассуждения, которые составляют основу человеческого и искусственного рассуждения: дедукция, индукция и абдукция.
Авторы создают набор синтетических задач, специально разработанных для каждой мета-способности, и обучают специализированные модели для каждой мета-способности. После обучения объединяют их в унифицированную модель с использованием взвешенной комбинации в пространстве параметров.
Объединенная модель превосходит отдельные специализированные модели, подтверждая, что мета-способности дополняют друг друга. Оптимальная производительность достигается при весах λd=1.0, λi=0.2 и λa=0.1, что предполагает, что дедуктивное рассуждение обеспечивает самую прочную основу, а индуктивное и абдуктивное рассуждения служат дополнительными возможностями.
This media is not supported in your browser
VIEW IN TELEGRAM
Любительская разработка.
X
X
Forwarded from Алексей
В прошлом были так называемые "растущие сети", например, "нейроподобные растущие сети Ященко". На каждый вход из обучаемых данных в сеть добавлялся новый нейрон. А что такое нейрон? Это просто строка или столбец в весовой матрице. Добавить новый нейрон — это дописать к матрице строку.
А где сейчас матрицы с растущими размерами? В трансформерах, в аттеншене. На каждый входной токен к матрицам ключей и значений дописывается новая строка — новый нейрон. Кеш трансформера — это растущая сеть. Но эта сеть с замороженными весами, веса кеша не обновляются с каждым новым токеном, в отличие от тех прошлых растущих сетей; и возможно это недоработка.
А где сейчас матрицы с растущими размерами? В трансформерах, в аттеншене. На каждый входной токен к матрицам ключей и значений дописывается новая строка — новый нейрон. Кеш трансформера — это растущая сеть. Но эта сеть с замороженными весами, веса кеша не обновляются с каждым новым токеном, в отличие от тех прошлых растущих сетей; и возможно это недоработка.
This media is not supported in your browser
VIEW IN TELEGRAM
Veo 3
X
Менее 3 часов и 7,25 долл. США на облачном кредите.
Если бы это делало традиционное агентство с использованием традиционных методов, то это обошлось бы примерно в 100 тыс. долларов.
X
The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation
https://www.arxiv.org/abs/2505.15807
https://www.alphaxiv.org/ru/overview/2505.15807
Исследователи обнаружили, что головы в In-Context Learning демонстрируют специализацию в своих функциях. Одни фокусируются на извлечении информации из контекста, другие полагаются на параметрические знания модели.
Эти специализированные головы не распределены случайным образом по всей архитектуре модели, а следуют определенным закономерностям.
Когда головы выборочно удалялись, способность модели выполнять определенные функции соответственно ухудшалась. Этими головами можно манипулировать для управления поведением модели.
https://www.arxiv.org/abs/2505.15807
https://www.alphaxiv.org/ru/overview/2505.15807
Исследователи обнаружили, что головы в In-Context Learning демонстрируют специализацию в своих функциях. Одни фокусируются на извлечении информации из контекста, другие полагаются на параметрические знания модели.
Эти специализированные головы не распределены случайным образом по всей архитектуре модели, а следуют определенным закономерностям.
Когда головы выборочно удалялись, способность модели выполнять определенные функции соответственно ухудшалась. Этими головами можно манипулировать для управления поведением модели.
Sparse Hash AI
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax https://arxiv.org/abs/2504.20966 https://www.alphaxiv.org/ru/overview/2504.20966 softpick-attention: Implementations of attention with the softpick function, naive and FlashAttention…
Апдейт от авторов softpick. К сожалению softpick не масштабируется на более крупные модели.
Лосс при обучении и результаты тестов хуже, чем у softmax на моделях с 1,8 млрд параметров.
X
Лосс при обучении и результаты тестов хуже, чем у softmax на моделях с 1,8 млрд параметров.
X
This media is not supported in your browser
VIEW IN TELEGRAM
Raibo от KAIST.
This media is not supported in your browser
VIEW IN TELEGRAM
Персональный робот Isaac от Weave Robotics.
🔥1
Decoding-based Regression
https://www.alphaxiv.org/ru/overview/2501.19383
Регрессия на основе декодирования в задачах численного прогнозирования. Преобразует традиционную задачу регрессии в задачу генерации последовательности.
Ключевая идея состоит в том, что, рассматривая числовую регрессию как задачу языкового моделирования, можно аппроксимировать произвольные гладкие одномерные функции плотности.
Этот подход требует меньше обучающих данных для достижения сопоставимой производительности с традиционными методами.
X
https://www.alphaxiv.org/ru/overview/2501.19383
Регрессия на основе декодирования в задачах численного прогнозирования. Преобразует традиционную задачу регрессии в задачу генерации последовательности.
Ключевая идея состоит в том, что, рассматривая числовую регрессию как задачу языкового моделирования, можно аппроксимировать произвольные гладкие одномерные функции плотности.
Этот подход требует меньше обучающих данных для достижения сопоставимой производительности с традиционными методами.
X
How Do Transformers Learn Variable Binding in Symbolic Programs?
https://www.alphaxiv.org/ru/overview/2505.20896
https://variablescope.org/experiment
Исследовалось как трансформеры справляются с задачей присваивания значения переменной по цепочке (a=5, b=a, ...).
При обучении модель демонстрирует фазовые состояния с резкими фазовыми переходами, наподобие грокинга.
Выяснилось, что residual стрим действует как адресуемая память. Модель учится кодировать переменные и числовые константы в отдельных выделенных подпространствах стрима.
Генерализация же в третьей фазе не заменяет ранее найденные эвристики, а формирует механизм надстройки над ними. Эвристики используется, когда работают, а схема активируется, когда они не работают.
X
https://www.alphaxiv.org/ru/overview/2505.20896
https://variablescope.org/experiment
Исследовалось как трансформеры справляются с задачей присваивания значения переменной по цепочке (a=5, b=a, ...).
При обучении модель демонстрирует фазовые состояния с резкими фазовыми переходами, наподобие грокинга.
Выяснилось, что residual стрим действует как адресуемая память. Модель учится кодировать переменные и числовые константы в отдельных выделенных подпространствах стрима.
Генерализация же в третьей фазе не заменяет ранее найденные эвристики, а формирует механизм надстройки над ними. Эвристики используется, когда работают, а схема активируется, когда они не работают.
X
Avatar IV от HeyGen.
Одна фотка + аудио или текст.
https://linktr.ee/heygen.ai
https://x.com/HeyGen_Official
Одна фотка + аудио или текст.
https://linktr.ee/heygen.ai
https://x.com/HeyGen_Official