Sparse Hash AI – Telegram
Sparse Hash AI
134 subscribers
154 photos
256 videos
3 files
339 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
Forwarded from Алексей
В прошлом были так называемые "растущие сети", например, "нейроподобные растущие сети Ященко". На каждый вход из обучаемых данных в сеть добавлялся новый нейрон. А что такое нейрон? Это просто строка или столбец в весовой матрице. Добавить новый нейрон — это дописать к матрице строку.

А где сейчас матрицы с растущими размерами? В трансформерах, в аттеншене. На каждый входной токен к матрицам ключей и значений дописывается новая строка — новый нейрон. Кеш трансформера — это растущая сеть. Но эта сеть с замороженными весами, веса кеша не обновляются с каждым новым токеном, в отличие от тех прошлых растущих сетей; и возможно это недоработка.
This media is not supported in your browser
VIEW IN TELEGRAM
Veo 3

Менее 3 часов и 7,25 долл. США на облачном кредите.

Если бы это делало традиционное агентство с использованием традиционных методов, то это обошлось бы примерно в 100 тыс. долларов.

X
The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation
https://www.arxiv.org/abs/2505.15807
https://www.alphaxiv.org/ru/overview/2505.15807

Исследователи обнаружили, что головы в In-Context Learning демонстрируют специализацию в своих функциях. Одни фокусируются на извлечении информации из контекста, другие полагаются на параметрические знания модели.

Эти специализированные головы не распределены случайным образом по всей архитектуре модели, а следуют определенным закономерностям.

Когда головы выборочно удалялись, способность модели выполнять определенные функции соответственно ухудшалась. Этими головами можно манипулировать для управления поведением модели.
Sparse Hash AI
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax https://arxiv.org/abs/2504.20966 https://www.alphaxiv.org/ru/overview/2504.20966 softpick-attention: Implementations of attention with the softpick function, naive and FlashAttention…
Апдейт от авторов softpick. К сожалению softpick не масштабируется на более крупные модели.

Лосс при обучении и результаты тестов хуже, чем у softmax на моделях с 1,8 млрд параметров.

X
Decoding-based Regression
https://www.alphaxiv.org/ru/overview/2501.19383

Регрессия на основе декодирования в задачах численного прогнозирования. Преобразует традиционную задачу регрессии в задачу генерации последовательности.

Ключевая идея состоит в том, что, рассматривая числовую регрессию как задачу языкового моделирования, можно аппроксимировать произвольные гладкие одномерные функции плотности.

Этот подход требует меньше обучающих данных для достижения сопоставимой производительности с традиционными методами.

X
How Do Transformers Learn Variable Binding in Symbolic Programs?
https://www.alphaxiv.org/ru/overview/2505.20896

https://variablescope.org/experiment

Исследовалось как трансформеры справляются с задачей присваивания значения переменной по цепочке (a=5, b=a, ...).

При обучении модель демонстрирует фазовые состояния с резкими фазовыми переходами, наподобие грокинга.

Выяснилось, что residual стрим действует как адресуемая память. Модель учится кодировать переменные и числовые константы в отдельных выделенных подпространствах стрима.

Генерализация же в третьей фазе не заменяет ранее найденные эвристики, а формирует механизм надстройки над ними. Эвристики используется, когда работают, а схема активируется, когда они не работают.

X
This media is not supported in your browser
VIEW IN TELEGRAM
https://www.4dv.ai/en

Зайдите сзади, на стул посмотрите 😎
Predicting Human Brain States with Transformer
https://www.alphaxiv.org/overview/2412.19814

На основе 21 секунд данных функциональной магнитно-резонансной томографии (fMRI) трансформер предсказывает состояния мозга в следующие 5 секунд.

Точность на первой секунде 0.997, последующих 4 секунд > 0.85.
👍2
Scalable-Softmax Is Superior for Attention
https://www.alphaxiv.org/ru/overview/2501.19399
https://github.com/gdevos010/Scalable-Softmax

LLM сталкиваются с критическим ограничением: их производительность значительно ухудшается при обработке последовательностей, превышающих те, на которых они были обучены.

Эта работа выявляет фундаментальную причину этого ограничения: проблему "затухания внимания" в моделях transformer. Поведение стандартного softmax в механизмах внимания резко меняется с увеличением длины последовательности, что приводит к сглаживанию оценок внимания и мешает моделям эффективно фокусироваться на релевантной информации в длинных контекстах.

В статье представлен Scalable-Softmax (SSMax), новая альтернатива стандартной функции softmax, которая поддерживает стабильное поведение независимо от размера входных данных. SSMax - это модифицированная версия softmax, которая включает размер входного вектора в свои вычисления.
👍4
Overcoming a Theoretical Limitation of Self-Attention
https://www.alphaxiv.org/ru/overview/2202.12172

Это работа из 2022 года. Часть статьи, как и прошлый мой пост о Scalable-Softmax, посвящена проблеме "размывания" весов внимания.

Авторами предлагается логарифмическое масштабирование, видимо найденное эмпирически. По сути SSMax это его простое расширение, но автор дал и объяснение откуда собственно в функции softmax оказывается коэффициент масштаба log(n).

В экспериментальной задаче этой работы аналогично применение масштабирования по логарифму длины полностью решает проблемы обобщения по длине, достигая идеальной точности на всех протестированных длинах, независимо от длины обучающей последовательности.

Невзирая на отличные результаты, за прошедшие три года логарифмическое масштабирование не стало мейнстримом и, как видим, даже было заново открыто.

Сама работа посвящена преодолению критического теоретического ограничения механизмов самовнимания, выявленного Ханом (2020).