ZipNN: Lossless Compression for AI Models
https://arxiv.org/abs/2411.05239
Сжимает веса без потерь алгоритмом Хаффмана. Степень сжатия 33%-50%.
https://arxiv.org/abs/2411.05239
Сжимает веса без потерь алгоритмом Хаффмана. Степень сжатия 33%-50%.
Slowing Down Forgetting in Continual Learning
https://arxiv.org/abs/2411.06916
Для борьбы с забыванием на дообучении сети новой задаче по весам реконструируют прошлые тренировочные данные, которые комбинируют с новыми.
X
https://arxiv.org/abs/2411.06916
Для борьбы с забыванием на дообучении сети новой задаче по весам реконструируют прошлые тренировочные данные, которые комбинируют с новыми.
X
LAuReL: Learned Augmented Residual Layer
https://arxiv.org/abs/2411.07501
Обучаемые остаточные связи. В каком-то смысле это вертикально развёрнутое внимание (вдоль стрима), где функция g (см. 2) принимает выходы с предыдущих блоков.
X
https://arxiv.org/abs/2411.07501
Обучаемые остаточные связи. В каком-то смысле это вертикально развёрнутое внимание (вдоль стрима), где функция g (см. 2) принимает выходы с предыдущих блоков.
X
Визуализация "обучения" loss-ом, движение по градиенту в мультивселенной.
https://www.youtube.com/clip/Ugkx-h7PSe5RmOHgiptnROkAkWqnRdFfvcu_
https://www.youtube.com/clip/Ugkx-h7PSe5RmOHgiptnROkAkWqnRdFfvcu_
YouTube
✂️ Loss
17 seconds · Clipped by Алексей Тарасов (4815162342) · Original video "Rick and Morty Death Crystals (SEASON 4)" by Play Frame
👍1
noise_step: Training in 1.58b With No Gradient Memory
https://github.com/wbrickner/noise_step
🧨💥🤯
X
it lets you *train* in 1.58b! could use 97% less energy, 90% less weight memory. leads to a new model format which can store a 175B model in ~20mb. also, no backprop!
критика
https://github.com/wbrickner/noise_step
🧨💥🤯
X
it lets you *train* in 1.58b! could use 97% less energy, 90% less weight memory. leads to a new model format which can store a 175B model in ~20mb. also, no backprop!
критика
GitHub
GitHub - wbrickner/noise_step: noise_step: Training in 1.58b With No Gradient Memory
noise_step: Training in 1.58b With No Gradient Memory - wbrickner/noise_step
Paper page - Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
https://huggingface.co/papers/2412.13795
Выявлен ключевой недостаток Pre-LN, она ограничивает эффективность более глубоких уровней.
Pre-LN вызывает меньшие градиенты в более глубоких слоях, снижая их эффективность. Post-LN усиливает градиенты более глубоких слоев, но вызывает исчезновение градиента в более ранних слоях.
Предлагается Mix-LN, который сочетает в себе Pre-LN и Post-LN.
https://huggingface.co/papers/2412.13795
Выявлен ключевой недостаток Pre-LN, она ограничивает эффективность более глубоких уровней.
Pre-LN вызывает меньшие градиенты в более глубоких слоях, снижая их эффективность. Post-LN усиливает градиенты более глубоких слоев, но вызывает исчезновение градиента в более ранних слоях.
Предлагается Mix-LN, который сочетает в себе Pre-LN и Post-LN.
LBPE: Long-token-first Tokenization to Improve Large Language Models
https://arxiv.org/abs/2411.05504
Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.
https://arxiv.org/abs/2411.05504
Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.
👍1
Tensor Product Attention Is All You Need
https://arxiv.org/abs/2501.06425
The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6
Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).
Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.
Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.
На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).
https://arxiv.org/abs/2501.06425
The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6
Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).
Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.
Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.
На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).