NEW BOT Телеграм, страница

74 views15:36

This media is not supported in your browser

79 views15:53

Визуализация "обучения" loss-ом, движение по градиенту в мультивселенной.

https://www.youtube.com/clip/Ugkx-h7PSe5RmOHgiptnROkAkWqnRdFfvcu_

YouTube

✂️ Loss

17 seconds · Clipped by Алексей Тарасов (4815162342) · Original video "Rick and Morty Death Crystals (SEASON 4)" by Play Frame

👍1

86 views00:46

Sparse Hash AI

noise_step: Training in 1.58b With No Gradient Memory
https://github.com/wbrickner/noise_step

🧨💥🤯

X

it lets you *train* in 1.58b! could use 97% less energy, 90% less weight memory. leads to a new model format which can store a 175B model in ~20mb. also, no backprop!

критика

GitHub

GitHub - wbrickner/noise_step: noise_step: Training in 1.58b With No Gradient Memory

noise_step: Training in 1.58b With No Gradient Memory - wbrickner/noise_step

216 views17:25

Unitree B2-W

122 views03:23

Sparse Hash AI

Paper page - Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
https://huggingface.co/papers/2412.13795

Выявлен ключевой недостаток Pre-LN, она ограничивает эффективность более глубоких уровней.

Pre-LN вызывает меньшие градиенты в более глубоких слоях, снижая их эффективность. Post-LN усиливает градиенты более глубоких слоев, но вызывает исчезновение градиента в более ранних слоях.

Предлагается Mix-LN, который сочетает в себе Pre-LN и Post-LN.

115 views08:04

Sparse Hash AI

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

@cixliv

🔥1

118 views02:20

Sparse Hash AI

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

SE01

123 views03:47

Sparse Hash AI

Unitree B2-W

0:57

This media is not supported in your browser

VIEW IN TELEGRAM

87 views03:34

Sparse Hash AI

LBPE: Long-token-first Tokenization to Improve Large Language Models
https://arxiv.org/abs/2411.05504

Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.

👍1

83 views19:38

Sparse Hash AI

Tensor Product Attention Is All You Need
https://arxiv.org/abs/2501.06425

The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6

Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).

Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.

Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.

На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).

178 views20:35

Sparse Hash AI

Тизер "Oneshot optimizer".

❤1🔥1

215 views19:39

Sparse Hash AI

Effect of the initial configuration of weights on the training and function of artificial neural networks
https://arxiv.org/abs/2012.02550

watermark на веса

If you make a drawing in the weight matrices of your neural network at initialization, it will likely still be visible at the end of training.

🤔1

111 views20:00

Sparse Hash AI

TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
https://arxiv.org/abs/2501.15674

Метод улучшения рассуждений LLM через денойсинг и сжатие весов MHA. Достигаемая степень сжатия весов до 250 раз. Всё это без необходимости в дополнительных данных, обучении или тюнинге.

🔥2

108 views09:05

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

продолжение

80 views03:21

Sparse Hash AI

Forwarded from Алексей

Обучение без изменения весов

Ошибку предсказания следующего токена err распространим назад в указанную на картинке точку через матрицу 𝐖qkᵀ, то есть умножим ошибку на 𝐖qk, получим вектор 𝐕bp.

𝐕bp = err • 𝐖qk

Если вектор добавить в контекст 𝐗, конкатенировать, то это сработает как если бы сделали апдейт весов матрицы внимания 𝐖qk.

𝐗 = concat(𝐗, err • 𝐖qk)

На повторное предъявление входа 𝑥, в стриме будет вектор "выученного" следующего токена.

86 views04:45

Sparse Hash AI

Forwarded from Алексей

Sparse Hash AI

https://habr.com/ru/companies/smartengines/articles/879088/

Прикольно как в альтернативной записи скалярного произведения входного вектора с весами исчезает интерпретация "взвешивания входа".

С этой "логарифмической" позиции это не взвешивание, а суммирование входа с весами.

116 views04:51

About

Blog

Apps

Platform