Sparse Hash AI – Telegram
Sparse Hash AI
134 subscribers
154 photos
257 videos
3 files
340 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
Вышел BitNet v2.

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs
https://arxiv.org/abs/2504.18415
https://www.alphaxiv.org/abs/2504.18415

Промежуточные состояния в слоях трансформера часто следуют распределению с высокой концентрацией значений около нуля и длинным хвостом выбросов. Ключевым нововведением в BitNet v2 является применение преобразования Адамара для изменения распределения активаций. При применении к векторам активации это преобразование обладает замечательным свойством: оно более равномерно перераспределяет значения, преобразуя резкое, склонное к выбросам распределение в более гауссоподобную форму. Это делает преобразованные значения более подходящими для низкобитового квантования.

* картинка Гистограммы, показывающие распределения активаций до и после преобразования Адамара, демонстрирующие, как преобразование создает более удобные для квантования распределения.
👍1
Layer by Layer: Uncovering Hidden Representations in Language Models
https://arxiv.org/abs/2502.02013
https://www.alphaxiv.org/overview/2502.02013

Промежуточные слои часто содержат более богатые и полезные представления, чем конечный слой.

The Mid-Layer Compression Valley

Одна из наиболее ярких закономерностей в моделях с авторегрессией - "долина сжатия" ("compression valley"), где энтропия резко падает в средних слоях, а затем частично восстанавливается в более поздних слоях. Эта U-образная форма проявляется во всех метриках и предполагает наличие фундаментальной стратегии обработки информации.

Долина возникает во время обучения. В начале обучения энтропия остается относительно ровной по слоям. По мере обучения средние слои развивают все более сильное сжатие. Более глубокие модели показывают более глубокие долины. Долина коррелирует с производительностью: модели с более сильными долинами сжатия, как правило, лучше справляются с задачами.
👍1
Sparse Hash AI
speeder bike https://x.com/Volonaut
Media is too big
VIEW IN TELEGRAM
Meet the Airbike - Your personal hoverbike straight from the Future!

The Volonaut Airbike flying motorbike is a breakthrough in personal air mobility.

X
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
https://arxiv.org/abs/2504.20966
https://www.alphaxiv.org/ru/overview/2504.20966

softpick-attention: Implementations of attention with the softpick function, naive and FlashAttention-2
https://github.com/zaydzuhri/softpick-attention

Softpick (Rectified Softmax) - замена softmax-у. Полностью устраняет attention sink, нормализует активации (residual activations), не теряя в производительности.
Китайская фирма DAMODA побила мировой рекорд Гиннесса, организовав световое шоу с участием 10 518 дронов над городом Хошимин.
🔥1
Media is too big
VIEW IN TELEGRAM
Volonaut Airbike - Speeder Bike Forest Chase
https://www.youtube.com/watch?v=Q74qlF48qX0

May the 4th be with You!
This media is not supported in your browser
VIEW IN TELEGRAM
Андроид AiMOGA от Chery Automobile.
корма тяжёлая )
This media is not supported in your browser
VIEW IN TELEGRAM
Современные дипфейки в режиме реального времени с подстройкой к освещению.
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
https://arxiv.org/abs/2504.20752v2
https://www.alphaxiv.org/ru/overview/2504.20752

Многошаговое рассуждение требует соединения нескольких атомарных фактов в цепочку для получения новой информации. Грокнутый восьмислойный GPT-2 в задачах многошагового рассуждения способен значительно превзойти более крупные и продвинутые модели, такие как GPT-4o и O1-mini.

Необходимым условием для полной обобщаемости, возникновения грокинга, является превышение определенного критического порога для отношения между выведенными фактами и атомарными фактами.

Интересный факт: Удивительно, но расширение некорректными фактами все еще может способствовать грокингу, предполагая, что формирование схем рассуждений в некоторой степени не зависит от фактической корректности.
Media is too big
VIEW IN TELEGRAM
Оптимус деградирует.
😁5