LBPE: Long-token-first Tokenization to Improve Large Language Models
https://arxiv.org/abs/2411.05504
Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.
https://arxiv.org/abs/2411.05504
Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.
👍1
Tensor Product Attention Is All You Need
https://arxiv.org/abs/2501.06425
The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6
Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).
Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.
Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.
На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).
https://arxiv.org/abs/2501.06425
The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6
Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).
Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.
Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.
На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).
Effect of the initial configuration of weights on the training and function of artificial neural networks
https://arxiv.org/abs/2012.02550
watermark на веса
X
https://arxiv.org/abs/2012.02550
watermark на веса
If you make a drawing in the weight matrices of your neural network at initialization, it will likely still be visible at the end of training.
X
🤔1
TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
https://arxiv.org/abs/2501.15674
Метод улучшения рассуждений LLM через денойсинг и сжатие весов MHA. Достигаемая степень сжатия весов до 250 раз. Всё это без необходимости в дополнительных данных, обучении или тюнинге.
https://arxiv.org/abs/2501.15674
Метод улучшения рассуждений LLM через денойсинг и сжатие весов MHA. Достигаемая степень сжатия весов до 250 раз. Всё это без необходимости в дополнительных данных, обучении или тюнинге.
🔥2
Forwarded from Алексей
Обучение без изменения весов
Ошибку предсказания следующего токена err распространим назад в указанную на картинке точку через матрицу 𝐖qkᵀ, то есть умножим ошибку на 𝐖qk, получим вектор 𝐕bp.
𝐕bp = err • 𝐖qk
Если вектор добавить в контекст 𝐗, конкатенировать, то это сработает как если бы сделали апдейт весов матрицы внимания 𝐖qk.
𝐗 = concat(𝐗, err • 𝐖qk)
На повторное предъявление входа 𝑥, в стриме будет вектор "выученного" следующего токена.
Ошибку предсказания следующего токена err распространим назад в указанную на картинке точку через матрицу 𝐖qkᵀ, то есть умножим ошибку на 𝐖qk, получим вектор 𝐕bp.
𝐕bp = err • 𝐖qk
Если вектор добавить в контекст 𝐗, конкатенировать, то это сработает как если бы сделали апдейт весов матрицы внимания 𝐖qk.
𝐗 = concat(𝐗, err • 𝐖qk)
На повторное предъявление входа 𝑥, в стриме будет вектор "выученного" следующего токена.
Forwarded from Алексей
Sparse Hash AI
https://habr.com/ru/companies/smartengines/articles/879088/
Прикольно как в альтернативной записи скалярного произведения входного вектора с весами исчезает интерпретация "взвешивания входа".
С этой "логарифмической" позиции это не взвешивание, а суммирование входа с весами.
С этой "логарифмической" позиции это не взвешивание, а суммирование входа с весами.
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
https://omnihuman-lab.github.io/
https://omnihuman-lab.github.io/
This media is not supported in your browser
VIEW IN TELEGRAM
ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
https://arxiv.org/abs/2501.12493
https://arxiv.org/abs/2501.12493
❤1
Language Models Use Trigonometry to Do Addition
https://www.lesswrong.com/posts/E7z89FKLsHk5DkmDL/language-models-use-trigonometry-to-do-addition-1
https://arxiv.org/abs/2502.00873
https://x.com/thesubhashk/status/1887138694546788556
Для сложения чисел LLM кодирует их на спирали с разным периодом (2, 5, 10, 100). Алгоритму дали название "Clock algorithm".
MLP первой половины трансформера кодируют сумму на спирали, MLP второй половины декодируют результат в токен.
Как и в других похожих исследованиях внимание здесь занимается тем, что копирует операнды (числа) в стрим токена '=', с которым уже MLP проводят операции.
https://www.lesswrong.com/posts/E7z89FKLsHk5DkmDL/language-models-use-trigonometry-to-do-addition-1
https://arxiv.org/abs/2502.00873
https://x.com/thesubhashk/status/1887138694546788556
Для сложения чисел LLM кодирует их на спирали с разным периодом (2, 5, 10, 100). Алгоритму дали название "Clock algorithm".
MLP первой половины трансформера кодируют сумму на спирали, MLP второй половины декодируют результат в токен.
Как и в других похожих исследованиях внимание здесь занимается тем, что копирует операнды (числа) в стрим токена '=', с которым уже MLP проводят операции.
🔥1
Better & Faster Large Language Models via Multi-token Prediction
https://arxiv.org/abs/2404.19737
Голова трансформера способна из стрима вытаскивать не только следующий токен, но и токены в k-ой позиции.
В работе к телу трансформера прикрутили ещё несколько голов, которые делают Multi-token Prediction.
https://arxiv.org/abs/2404.19737
Голова трансформера способна из стрима вытаскивать не только следующий токен, но и токены в k-ой позиции.
В работе к телу трансформера прикрутили ещё несколько голов, которые делают Multi-token Prediction.
❤2
Маск предложил совету директоров OpenAI продать компанию за $97,4 млрд
https://habr.com/ru/news/881262/
https://habr.com/ru/news/881262/
Хабр
Маск предложил совету директоров OpenAI продать компанию за $97,4 млрд
Илон Маск с группой инвесторов предложил совету директоров OpenAI продать ему компанию за $97,4 млрд. Маск был соучредителем OpenAI вместе с Сэмом Альтманом и ушёл из компании в 2018 году. Ранее Маск...