Sparse Hash AI – Telegram
Sparse Hash AI
134 subscribers
154 photos
256 videos
3 files
339 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
noise_step: Training in 1.58b With No Gradient Memory
https://github.com/wbrickner/noise_step

🧨💥🤯

X

it lets you *train* in 1.58b! could use 97% less energy, 90% less weight memory. leads to a new model format which can store a 175B model in ~20mb. also, no backprop!

критика
Paper page - Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
https://huggingface.co/papers/2412.13795

Выявлен ключевой недостаток Pre-LN, она ограничивает эффективность более глубоких уровней.

Pre-LN вызывает меньшие градиенты в более глубоких слоях, снижая их эффективность. Post-LN усиливает градиенты более глубоких слоев, но вызывает исчезновение градиента в более ранних слоях.

Предлагается Mix-LN, который сочетает в себе Pre-LN и Post-LN.
LBPE: Long-token-first Tokenization to Improve Large Language Models
https://arxiv.org/abs/2411.05504

Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.
👍1
Tensor Product Attention Is All You Need
https://arxiv.org/abs/2501.06425

The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6

Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).

Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.

Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.

На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).
Тизер "Oneshot optimizer".
1🔥1
Effect of the initial configuration of weights on the training and function of artificial neural networks
https://arxiv.org/abs/2012.02550

watermark на веса

If you make a drawing in the weight matrices of your neural network at initialization, it will likely still be visible at the end of training.

X
🤔1
TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
https://arxiv.org/abs/2501.15674

Метод улучшения рассуждений LLM через денойсинг и сжатие весов MHA. Достигаемая степень сжатия весов до 250 раз. Всё это без необходимости в дополнительных данных, обучении или тюнинге.
🔥2
Forwarded from Алексей
Обучение без изменения весов

Ошибку предсказания следующего токена err распространим назад в указанную на картинке точку через матрицу 𝐖qkᵀ, то есть умножим ошибку на 𝐖qk, получим вектор 𝐕bp.

𝐕bp = err • 𝐖qk

Если вектор добавить в контекст 𝐗, конкатенировать, то это сработает как если бы сделали апдейт весов матрицы внимания 𝐖qk.

𝐗 = concat(𝐗, err • 𝐖qk)

На повторное предъявление входа 𝑥, в стриме будет вектор "выученного" следующего токена.
Forwarded from Алексей
Sparse Hash AI
https://habr.com/ru/companies/smartengines/articles/879088/
Прикольно как в альтернативной записи скалярного произведения входного вектора с весами исчезает интерпретация "взвешивания входа".

С этой "логарифмической" позиции это не взвешивание, а суммирование входа с весами.