NEW BOT Телеграм, страница

Sparse Hash AI

LBPE: Long-token-first Tokenization to Improve Large Language Models
https://arxiv.org/abs/2411.05504

Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.

👍1

83 views19:38

Sparse Hash AI

Tensor Product Attention Is All You Need
https://arxiv.org/abs/2501.06425

The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6

Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).

Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.

Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.

На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).

178 views20:35

Sparse Hash AI

Тизер "Oneshot optimizer".

❤1🔥1

215 views19:39

Sparse Hash AI

Effect of the initial configuration of weights on the training and function of artificial neural networks
https://arxiv.org/abs/2012.02550

watermark на веса

If you make a drawing in the weight matrices of your neural network at initialization, it will likely still be visible at the end of training.

🤔1

111 views20:00

Sparse Hash AI

TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
https://arxiv.org/abs/2501.15674

Метод улучшения рассуждений LLM через денойсинг и сжатие весов MHA. Достигаемая степень сжатия весов до 250 раз. Всё это без необходимости в дополнительных данных, обучении или тюнинге.

🔥2

108 views09:05

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

продолжение

80 views03:21

Sparse Hash AI

Forwarded from Алексей

Обучение без изменения весов

Ошибку предсказания следующего токена err распространим назад в указанную на картинке точку через матрицу 𝐖qkᵀ, то есть умножим ошибку на 𝐖qk, получим вектор 𝐕bp.

𝐕bp = err • 𝐖qk

Если вектор добавить в контекст 𝐗, конкатенировать, то это сработает как если бы сделали апдейт весов матрицы внимания 𝐖qk.

𝐗 = concat(𝐗, err • 𝐖qk)

На повторное предъявление входа 𝑥, в стриме будет вектор "выученного" следующего токена.

86 views04:45

Sparse Hash AI

Forwarded from Алексей

Sparse Hash AI

https://habr.com/ru/companies/smartengines/articles/879088/

Прикольно как в альтернативной записи скалярного произведения входного вектора с весами исчезает интерпретация "взвешивания входа".

С этой "логарифмической" позиции это не взвешивание, а суммирование входа с весами.

116 views04:51

Sparse Hash AI

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
https://omnihuman-lab.github.io/

113 views23:35

Sparse Hash AI

4:16

This media is not supported in your browser

VIEW IN TELEGRAM

ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
https://arxiv.org/abs/2501.12493

❤1

217 views05:02

Sparse Hash AI

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Language Models Use Trigonometry to Do Addition
https://www.lesswrong.com/posts/E7z89FKLsHk5DkmDL/language-models-use-trigonometry-to-do-addition-1

https://arxiv.org/abs/2502.00873

https://x.com/thesubhashk/status/1887138694546788556

Для сложения чисел LLM кодирует их на спирали с разным периодом (2, 5, 10, 100). Алгоритму дали название "Clock algorithm".

MLP первой половины трансформера кодируют сумму на спирали, MLP второй половины декодируют результат в токен.

Как и в других похожих исследованиях внимание здесь занимается тем, что копирует операнды (числа) в стрим токена '=', с которым уже MLP проводят операции.

🔥1

134 views19:06

Sparse Hash AI

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

126 views06:48

Sparse Hash AI

Better & Faster Large Language Models via Multi-token Prediction
https://arxiv.org/abs/2404.19737

Голова трансформера способна из стрима вытаскивать не только следующий токен, но и токены в k-ой позиции.

В работе к телу трансформера прикрутили ещё несколько голов, которые делают Multi-token Prediction.

❤2

169 views22:52

Sparse Hash AI

163 views03:03

Sparse Hash AI