Sparse Hash AI – Telegram
Sparse Hash AI
134 subscribers
154 photos
257 videos
3 files
340 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
An Intuitive Explanation of Sparse Autoencoders for LLM Interpretability
https://adamkarvonen.github.io/machine_learning/2024/06/11/sae-intuitions.html
1
Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models
https://arxiv.org/abs/2410.06981

Sparse Autoencoders Find Highly Interpretable Features in Language Models
https://arxiv.org/abs/2309.08600
🔥2
PIDformer: Transformer Meets Control Theory
https://arxiv.org/abs/2402.15989

Для стабилизации аттеншена добавили в трансформер ПИД-регулятор.

X
🔥2
ZipNN: Lossless Compression for AI Models
https://arxiv.org/abs/2411.05239

Сжимает веса без потерь алгоритмом Хаффмана. Степень сжатия 33%-50%.
Slowing Down Forgetting in Continual Learning
https://arxiv.org/abs/2411.06916

Для борьбы с забыванием на дообучении сети новой задаче по весам реконструируют прошлые тренировочные данные, которые комбинируют с новыми.

X
LAuReL: Learned Augmented Residual Layer
https://arxiv.org/abs/2411.07501

Обучаемые остаточные связи. В каком-то смысле это вертикально развёрнутое внимание (вдоль стрима), где функция g (см. 2) принимает выходы с предыдущих блоков.

X
noise_step: Training in 1.58b With No Gradient Memory
https://github.com/wbrickner/noise_step

🧨💥🤯

X

it lets you *train* in 1.58b! could use 97% less energy, 90% less weight memory. leads to a new model format which can store a 175B model in ~20mb. also, no backprop!

критика
Paper page - Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
https://huggingface.co/papers/2412.13795

Выявлен ключевой недостаток Pre-LN, она ограничивает эффективность более глубоких уровней.

Pre-LN вызывает меньшие градиенты в более глубоких слоях, снижая их эффективность. Post-LN усиливает градиенты более глубоких слоев, но вызывает исчезновение градиента в более ранних слоях.

Предлагается Mix-LN, который сочетает в себе Pre-LN и Post-LN.