NEW BOT Телеграм, страница

Sparse Hash AI

ZipNN: Lossless Compression for AI Models
https://arxiv.org/abs/2411.05239

Сжимает веса без потерь алгоритмом Хаффмана. Степень сжатия 33%-50%.

92 views22:38

Sparse Hash AI

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

102 views20:41

Sparse Hash AI

Slowing Down Forgetting in Continual Learning
https://arxiv.org/abs/2411.06916

Для борьбы с забыванием на дообучении сети новой задаче по весам реконструируют прошлые тренировочные данные, которые комбинируют с новыми.

X

86 views21:37

Sparse Hash AI

LAuReL: Learned Augmented Residual Layer
https://arxiv.org/abs/2411.07501

Обучаемые остаточные связи. В каком-то смысле это вертикально развёрнутое внимание (вдоль стрима), где функция g (см. 2) принимает выходы с предыдущих блоков.

X

104 views16:01

Sparse Hash AI

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

85 views00:35

Sparse Hash AI

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

81 views18:11

Sparse Hash AI

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

74 views15:36

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

79 views15:53

Sparse Hash AI

Визуализация "обучения" loss-ом, движение по градиенту в мультивселенной.

https://www.youtube.com/clip/Ugkx-h7PSe5RmOHgiptnROkAkWqnRdFfvcu_

YouTube

✂️ Loss

17 seconds · Clipped by Алексей Тарасов (4815162342) · Original video "Rick and Morty Death Crystals (SEASON 4)" by Play Frame

👍1

86 views00:46

Sparse Hash AI

noise_step: Training in 1.58b With No Gradient Memory
https://github.com/wbrickner/noise_step

🧨💥🤯

X

it lets you *train* in 1.58b! could use 97% less energy, 90% less weight memory. leads to a new model format which can store a 175B model in ~20mb. also, no backprop!

критика

GitHub

GitHub - wbrickner/noise_step: noise_step: Training in 1.58b With No Gradient Memory

noise_step: Training in 1.58b With No Gradient Memory - wbrickner/noise_step

216 views17:25

Unitree B2-W

122 views03:23

Sparse Hash AI

Paper page - Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
https://huggingface.co/papers/2412.13795

Выявлен ключевой недостаток Pre-LN, она ограничивает эффективность более глубоких уровней.

Pre-LN вызывает меньшие градиенты в более глубоких слоях, снижая их эффективность. Post-LN усиливает градиенты более глубоких слоев, но вызывает исчезновение градиента в более ранних слоях.

Предлагается Mix-LN, который сочетает в себе Pre-LN и Post-LN.

115 views08:04

Sparse Hash AI

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

@cixliv

🔥1

118 views02:20

Sparse Hash AI

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

SE01

123 views03:47

Sparse Hash AI

Unitree B2-W

0:57

This media is not supported in your browser

VIEW IN TELEGRAM

87 views03:34

Sparse Hash AI

LBPE: Long-token-first Tokenization to Improve Large Language Models
https://arxiv.org/abs/2411.05504

Длинные токены, богатые семантической информацией, реже встречаются в токенизированных наборах данных по сравнению с короткими токенами, что может привести к несбалансированной проблеме обучения между разными токенами. LBPE отдает приоритет длинным токенам в процессе кодирования. LBPE генерирует токены в соответствии с их обратными рангами длины токена, а не их рангами в словаре, предоставляя более длинным токенам более высокий приоритет во время процесса кодирования.

👍1

83 views19:38

Sparse Hash AI

Tensor Product Attention Is All You Need
https://arxiv.org/abs/2501.06425

The official implementation of Tensor ProducT ATTenTion Transformer (T6)
https://github.com/tensorgi/T6

Tensor Product Attention (TPA) - механизм факторизации активаций (Q, K, V) в низкоранговые репрезентации, с использованием контекстных тензорных разложений (contextual tensor-decompositions).

Сокращает размер кеша в 10 раз. Нативная совместимость с RoPE.

Также исследователи объединили существующие механизмы внимания, показывая, что MHA, MQA и GQA возникают естественным образом как внеконтекстуальные (non-contextual) варианты TPA.

На базе TPA предложена новая архитектура трансформера, Tensor ProducT ATTenTion Transformer (T6).

178 views20:35

About

Blog

Apps

Platform