Sparse Hash AI – Telegram
Sparse Hash AI
134 subscribers
154 photos
256 videos
3 files
339 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Любительская разработка.
X
Forwarded from Алексей
В прошлом были так называемые "растущие сети", например, "нейроподобные растущие сети Ященко". На каждый вход из обучаемых данных в сеть добавлялся новый нейрон. А что такое нейрон? Это просто строка или столбец в весовой матрице. Добавить новый нейрон — это дописать к матрице строку.

А где сейчас матрицы с растущими размерами? В трансформерах, в аттеншене. На каждый входной токен к матрицам ключей и значений дописывается новая строка — новый нейрон. Кеш трансформера — это растущая сеть. Но эта сеть с замороженными весами, веса кеша не обновляются с каждым новым токеном, в отличие от тех прошлых растущих сетей; и возможно это недоработка.
This media is not supported in your browser
VIEW IN TELEGRAM
Veo 3

Менее 3 часов и 7,25 долл. США на облачном кредите.

Если бы это делало традиционное агентство с использованием традиционных методов, то это обошлось бы примерно в 100 тыс. долларов.

X
The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation
https://www.arxiv.org/abs/2505.15807
https://www.alphaxiv.org/ru/overview/2505.15807

Исследователи обнаружили, что головы в In-Context Learning демонстрируют специализацию в своих функциях. Одни фокусируются на извлечении информации из контекста, другие полагаются на параметрические знания модели.

Эти специализированные головы не распределены случайным образом по всей архитектуре модели, а следуют определенным закономерностям.

Когда головы выборочно удалялись, способность модели выполнять определенные функции соответственно ухудшалась. Этими головами можно манипулировать для управления поведением модели.
Sparse Hash AI
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax https://arxiv.org/abs/2504.20966 https://www.alphaxiv.org/ru/overview/2504.20966 softpick-attention: Implementations of attention with the softpick function, naive and FlashAttention…
Апдейт от авторов softpick. К сожалению softpick не масштабируется на более крупные модели.

Лосс при обучении и результаты тестов хуже, чем у softmax на моделях с 1,8 млрд параметров.

X
Decoding-based Regression
https://www.alphaxiv.org/ru/overview/2501.19383

Регрессия на основе декодирования в задачах численного прогнозирования. Преобразует традиционную задачу регрессии в задачу генерации последовательности.

Ключевая идея состоит в том, что, рассматривая числовую регрессию как задачу языкового моделирования, можно аппроксимировать произвольные гладкие одномерные функции плотности.

Этот подход требует меньше обучающих данных для достижения сопоставимой производительности с традиционными методами.

X
How Do Transformers Learn Variable Binding in Symbolic Programs?
https://www.alphaxiv.org/ru/overview/2505.20896

https://variablescope.org/experiment

Исследовалось как трансформеры справляются с задачей присваивания значения переменной по цепочке (a=5, b=a, ...).

При обучении модель демонстрирует фазовые состояния с резкими фазовыми переходами, наподобие грокинга.

Выяснилось, что residual стрим действует как адресуемая память. Модель учится кодировать переменные и числовые константы в отдельных выделенных подпространствах стрима.

Генерализация же в третьей фазе не заменяет ранее найденные эвристики, а формирует механизм надстройки над ними. Эвристики используется, когда работают, а схема активируется, когда они не работают.

X
This media is not supported in your browser
VIEW IN TELEGRAM
https://www.4dv.ai/en

Зайдите сзади, на стул посмотрите 😎
Predicting Human Brain States with Transformer
https://www.alphaxiv.org/overview/2412.19814

На основе 21 секунд данных функциональной магнитно-резонансной томографии (fMRI) трансформер предсказывает состояния мозга в следующие 5 секунд.

Точность на первой секунде 0.997, последующих 4 секунд > 0.85.
👍2
Scalable-Softmax Is Superior for Attention
https://www.alphaxiv.org/ru/overview/2501.19399
https://github.com/gdevos010/Scalable-Softmax

LLM сталкиваются с критическим ограничением: их производительность значительно ухудшается при обработке последовательностей, превышающих те, на которых они были обучены.

Эта работа выявляет фундаментальную причину этого ограничения: проблему "затухания внимания" в моделях transformer. Поведение стандартного softmax в механизмах внимания резко меняется с увеличением длины последовательности, что приводит к сглаживанию оценок внимания и мешает моделям эффективно фокусироваться на релевантной информации в длинных контекстах.

В статье представлен Scalable-Softmax (SSMax), новая альтернатива стандартной функции softmax, которая поддерживает стабильное поведение независимо от размера входных данных. SSMax - это модифицированная версия softmax, которая включает размер входного вектора в свои вычисления.
👍4