Визуализация "обучения" loss-ом, движение по градиенту в мультивселенной.
https://www.youtube.com/clip/Ugkx-h7PSe5RmOHgiptnROkAkWqnRdFfvcu_
https://www.youtube.com/clip/Ugkx-h7PSe5RmOHgiptnROkAkWqnRdFfvcu_
YouTube
✂️ Loss
17 seconds · Clipped by Алексей Тарасов (4815162342) · Original video "Rick and Morty Death Crystals (SEASON 4)" by Play Frame
👍1
noise_step: Training in 1.58b With No Gradient Memory
https://github.com/wbrickner/noise_step
🧨💥🤯
X
it lets you *train* in 1.58b! could use 97% less energy, 90% less weight memory. leads to a new model format which can store a 175B model in ~20mb. also, no backprop!
критика
https://github.com/wbrickner/noise_step
🧨💥🤯
X
it lets you *train* in 1.58b! could use 97% less energy, 90% less weight memory. leads to a new model format which can store a 175B model in ~20mb. also, no backprop!
критика
GitHub
GitHub - wbrickner/noise_step: noise_step: Training in 1.58b With No Gradient Memory
noise_step: Training in 1.58b With No Gradient Memory - wbrickner/noise_step
Paper page - Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
https://huggingface.co/papers/2412.13795
Выявлен ключевой недостаток Pre-LN, она ограничивает эффективность более глубоких уровней.
Pre-LN вызывает меньшие градиенты в более глубоких слоях, снижая их эффективность. Post-LN усиливает градиенты более глубоких слоев, но вызывает исчезновение градиента в более ранних слоях.
Предлагается Mix-LN, который сочетает в себе Pre-LN и Post-LN.
https://huggingface.co/papers/2412.13795
Выявлен ключевой недостаток Pre-LN, она ограничивает эффективность более глубоких уровней.
Pre-LN вызывает меньшие градиенты в более глубоких слоях, снижая их эффективность. Post-LN усиливает градиенты более глубоких слоев, но вызывает исчезновение градиента в более ранних слоях.
Предлагается Mix-LN, который сочетает в себе Pre-LN и Post-LN.
LBPE: Long-token-first Tokenization to Improve Large Language Models
https://arxiv.org/abs/2411.05504
Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.
https://arxiv.org/abs/2411.05504
Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.
👍1
Tensor Product Attention Is All You Need
https://arxiv.org/abs/2501.06425
The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6
Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).
Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.
Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.
На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).
https://arxiv.org/abs/2501.06425
The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6
Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).
Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.
Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.
На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).
Effect of the initial configuration of weights on the training and function of artificial neural networks
https://arxiv.org/abs/2012.02550
watermark на веса
X
https://arxiv.org/abs/2012.02550
watermark на веса
If you make a drawing in the weight matrices of your neural network at initialization, it will likely still be visible at the end of training.
X
🤔1
TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
https://arxiv.org/abs/2501.15674
Метод улучшения рассуждений LLM через денойсинг и сжатие весов MHA. Достигаемая степень сжатия весов до 250 раз. Всё это без необходимости в дополнительных данных, обучении или тюнинге.
https://arxiv.org/abs/2501.15674
Метод улучшения рассуждений LLM через денойсинг и сжатие весов MHA. Достигаемая степень сжатия весов до 250 раз. Всё это без необходимости в дополнительных данных, обучении или тюнинге.
🔥2
Forwarded from Алексей
Обучение без изменения весов
Ошибку предсказания следующего токена err распространим назад в указанную на картинке точку через матрицу 𝐖qkᵀ, то есть умножим ошибку на 𝐖qk, получим вектор 𝐕bp.
𝐕bp = err • 𝐖qk
Если вектор добавить в контекст 𝐗, конкатенировать, то это сработает как если бы сделали апдейт весов матрицы внимания 𝐖qk.
𝐗 = concat(𝐗, err • 𝐖qk)
На повторное предъявление входа 𝑥, в стриме будет вектор "выученного" следующего токена.
Ошибку предсказания следующего токена err распространим назад в указанную на картинке точку через матрицу 𝐖qkᵀ, то есть умножим ошибку на 𝐖qk, получим вектор 𝐕bp.
𝐕bp = err • 𝐖qk
Если вектор добавить в контекст 𝐗, конкатенировать, то это сработает как если бы сделали апдейт весов матрицы внимания 𝐖qk.
𝐗 = concat(𝐗, err • 𝐖qk)
На повторное предъявление входа 𝑥, в стриме будет вектор "выученного" следующего токена.
Forwarded from Алексей
Sparse Hash AI
https://habr.com/ru/companies/smartengines/articles/879088/
Прикольно как в альтернативной записи скалярного произведения входного вектора с весами исчезает интерпретация "взвешивания входа".
С этой "логарифмической" позиции это не взвешивание, а суммирование входа с весами.
С этой "логарифмической" позиции это не взвешивание, а суммирование входа с весами.