NEW BOT Телеграм, страница

91 views23:28

Sparse Hash AI

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Интерактивное real-time AI-видео.

https://odyssey.world/
X

97 views03:59

Sparse Hash AI

Forwarded from Алексей

В прошлом были так называемые "растущие сети", например, "нейроподобные растущие сети Ященко". На каждый вход из обучаемых данных в сеть добавлялся новый нейрон. А что такое нейрон? Это просто строка или столбец в весовой матрице. Добавить новый нейрон — это дописать к матрице строку.

А где сейчас матрицы с растущими размерами? В трансформерах, в аттеншене. На каждый входной токен к матрицам ключей и значений дописывается новая строка — новый нейрон. Кеш трансформера — это растущая сеть. Но эта сеть с замороженными весами, веса кеша не обновляются с каждым новым токеном, в отличие от тех прошлых растущих сетей; и возможно это недоработка.

107 views19:57

Sparse Hash AI

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

Veo 3

Менее 3 часов и 7,25 долл. США на облачном кредите.

Если бы это делало традиционное агентство с использованием традиционных методов, то это обошлось бы примерно в 100 тыс. долларов.

83 views06:58

Sparse Hash AI

The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation
https://www.arxiv.org/abs/2505.15807
https://www.alphaxiv.org/ru/overview/2505.15807

Исследователи обнаружили, что головы в In-Context Learning демонстрируют специализацию в своих функциях. Одни фокусируются на извлечении информации из контекста, другие полагаются на параметрические знания модели.

Эти специализированные головы не распределены случайным образом по всей архитектуре модели, а следуют определенным закономерностям.

Когда головы выборочно удалялись, способность модели выполнять определенные функции соответственно ухудшалась. Этими головами можно манипулировать для управления поведением модели.

87 views04:00

Sparse Hash AI

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax https://arxiv.org/abs/2504.20966 https://www.alphaxiv.org/ru/overview/2504.20966 softpick-attention: Implementations of attention with the softpick function, naive and FlashAttention…

Апдейт от авторов softpick. К сожалению softpick не масштабируется на более крупные модели.

Лосс при обучении и результаты тестов хуже, чем у softmax на моделях с 1,8 млрд параметров.

X

89 views05:00

Sparse Hash AI

0:55

This media is not supported in your browser

VIEW IN TELEGRAM

Raibo от KAIST.

79 views12:00

Sparse Hash AI

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

Персональный робот Isaac от Weave Robotics.

🔥1

74 views15:00

Sparse Hash AI

Decoding-based Regression
https://www.alphaxiv.org/ru/overview/2501.19383

Регрессия на основе декодирования в задачах численного прогнозирования. Преобразует традиционную задачу регрессии в задачу генерации последовательности.

Ключевая идея состоит в том, что, рассматривая числовую регрессию как задачу языкового моделирования, можно аппроксимировать произвольные гладкие одномерные функции плотности.

Этот подход требует меньше обучающих данных для достижения сопоставимой производительности с традиционными методами.

X

91 views04:01

Sparse Hash AI

How Do Transformers Learn Variable Binding in Symbolic Programs?
https://www.alphaxiv.org/ru/overview/2505.20896

https://variablescope.org/experiment

Исследовалось как трансформеры справляются с задачей присваивания значения переменной по цепочке (a=5, b=a, ...).

При обучении модель демонстрирует фазовые состояния с резкими фазовыми переходами, наподобие грокинга.

Выяснилось, что residual стрим действует как адресуемая память. Модель учится кодировать переменные и числовые константы в отдельных выделенных подпространствах стрима.

Генерализация же в третьей фазе не заменяет ранее найденные эвристики, а формирует механизм надстройки над ними. Эвристики используется, когда работают, а схема активируется, когда они не работают.

X

110 views04:01

Sparse Hash AI

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

89 views21:39

Sparse Hash AI

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

https://www.4dv.ai/en

Зайдите сзади, на стул посмотрите 😎

87 views21:04

Sparse Hash AI

0:23

This media is not supported in your browser

Avatar IV от HeyGen.

Одна фотка + аудио или текст.

https://linktr.ee/heygen.ai
https://x.com/HeyGen_Official

92 views03:01

Sparse Hash AI

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Обновлённый Helix.

https://www.figure.ai/news/scaling-helix-logistics

82 views03:03

Sparse Hash AI

Predicting Human Brain States with Transformer
https://www.alphaxiv.org/overview/2412.19814

На основе 21 секунд данных функциональной магнитно-резонансной томографии (fMRI) трансформер предсказывает состояния мозга в следующие 5 секунд.

Точность на первой секунде 0.997, последующих 4 секунд > 0.85.

👍2

69 views20:15

Sparse Hash AI

Scalable-Softmax Is Superior for Attention
https://www.alphaxiv.org/ru/overview/2501.19399
https://github.com/gdevos010/Scalable-Softmax

LLM сталкиваются с критическим ограничением: их производительность значительно ухудшается при обработке последовательностей, превышающих те, на которых они были обучены.

Эта работа выявляет фундаментальную причину этого ограничения: проблему "затухания внимания" в моделях transformer. Поведение стандартного softmax в механизмах внимания резко меняется с увеличением длины последовательности, что приводит к сглаживанию оценок внимания и мешает моделям эффективно фокусироваться на релевантной информации в длинных контекстах.

В статье представлен Scalable-Softmax (SSMax), новая альтернатива стандартной функции softmax, которая поддерживает стабильное поведение независимо от размера входных данных. SSMax - это модифицированная версия softmax, которая включает размер входного вектора в свои вычисления.

👍4

85 views02:59

Sparse Hash AI

Overcoming a Theoretical Limitation of Self-Attention
https://www.alphaxiv.org/ru/overview/2202.12172

Это работа из 2022 года. Часть статьи, как и прошлый мой пост о Scalable-Softmax, посвящена проблеме "размывания" весов внимания.

Авторами предлагается логарифмическое масштабирование, видимо найденное эмпирически. По сути SSMax это его простое расширение, но автор дал и объяснение откуда собственно в функции softmax оказывается коэффициент масштаба log(n).

В экспериментальной задаче этой работы аналогично применение масштабирования по логарифму длины полностью решает проблемы обобщения по длине, достигая идеальной точности на всех протестированных длинах, независимо от длины обучающей последовательности.

Невзирая на отличные результаты, за прошедшие три года логарифмическое масштабирование не стало мейнстримом и, как видим, даже было заново открыто.

Сама работа посвящена преодолению критического теоретического ограничения механизмов самовнимания, выявленного Ханом (2020).

82 viewsedited 21:59

Sparse Hash AI

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

66 views04:09

About

Blog

Apps

Platform