Sparse Hash AI – Telegram
Sparse Hash AI
134 subscribers
154 photos
256 videos
3 files
337 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
Sparse Hash AI pinned «Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression https://www.alphaxiv.org/overview/2503.02812 https://github.com/NathanGodey/qfilters Представлен Q-Filters – новый метод сжатия кеша ключ-значение языковых моделей без обучения, который…»
Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck
https://www.alphaxiv.org/overview/2404.07647

Статья приводит эмпирическое и теоретическое доказательство, что LM-голова (LM head) в малых языковых моделях создаёт «бутылочное горлышко softmax», ограничивая производительность при скрытой размерности менее 1000, что приводит к дегенерации представлений и насыщению обучения.

Выход производительности на плато (насыщение) может быть объяснено несоответствием между скрытой размерностью меньших моделей и высоким рангом целевого контекстуального распределения вероятностей.

Ключевым выводом является сильная корреляция между насыщением производительности и появлением «анизотропии последнего слоя» — меры того, насколько похожими становятся представления токенов в последних слоях модели.

Авторы обнаруживают, что меньшие модели развивают высокую анизотропию именно тогда, когда производительность начинает деградировать. Напротив, более крупные модели поддерживают относительно низкую анизотропию на протяжении всего обучения и не проявляют насыщения.

Центральный вклад статьи заключается в связывании насыщения производительности с «softmax bottleneck» — теоретическим ограничением, при котором линейная голова языковой модели не может эффективно отображать низкоразмерные представления в высокоразмерные распределения вероятностей по словарю.

Они вводят метрику «сингулярной энтропии». Эта метрика показывает, что небольшие модели испытывают «спектральное насыщение» — их распределения сингулярных значений головы сначала выравниваются, но затем резко коллапсируют в распределения, доминируемые пиками, точно совпадая с деградацией производительности.

Результаты показывают, что производительность значительно снижается, когда ранг падает ниже примерно 1000 измерений. Этот критический порог оказывается стабильным для разных базовых моделей и представляет собой фундаментальную нижнюю границу для эффективного языкового моделирования.

Чтобы понять, почему существует это узкое место, исследователи оценивают внутреннюю размерность естественного языка. Анализ показывает, что хотя 1000-2000 измерений могут уменьшить ошибку аппроксимации вдвое, достижение пренебрежимо малой ошибки требует 10 000-15 000 измерений. Этот резкий контраст с типичными скрытыми измерениями в малых языковых моделях (128-1024) объясняет фундаментальную проблему, с которой сталкиваются эти модели.

Sparse Hash AI
Sparse Hash AI pinned «Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck https://www.alphaxiv.org/overview/2404.07647 Статья приводит эмпирическое и теоретическое доказательство, что LM-голова (LM head) в малых языковых моделях…»
This media is not supported in your browser
VIEW IN TELEGRAM
Испытательный полет беспилотника вертикального взлета и посадки Razor P100 от американской компании Mayman Aerospace. БПЛА может нести полезную нагрузку до 45 кг и развивать скорость до 0,75 Маха.

Sparse Hash AI
🔥1
A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
https://www.alphaxiv.org/overview/2601.06851

Большие языковые модели (LLM) спонтанно развивают «синергетическое ядро» в своих средних слоях, информационную архитектуру, которая параллельна когнитивным областям более высокого порядка человеческого мозга. Это ядро характеризуется интегрированной обработкой информации и функционально важно для связного поведения LLM, надежной производительности в сложных задачах и способности обобщать знания, особенно при усилении с помощью обучения с подкреплением.

Sparse Hash AI
🔥3
Knee-Deep in C-RASP: A Transformer Depth Hierarchy
https://www.alphaxiv.org/abs/2506.16055

https://github.com/pentagonalize/CRASP_depth

Данное исследование формально доказывает и эмпирически подтверждает, что реальные модели трансформеров требуют определенной глубины для достижения 100% точности в задачах.

Авторы показывают, что трансформеры демонстрируют строгую иерархию глубины — это означает, что для любой глубины k существуют вычислительные задачи, которые могут быть решены трансформером с k+1 слоями, но не могут быть решены никаким трансформером всего с k слоями.

Модели постоянно достигают 100% точности, когда их глубина соответствует или превышает теоретически предсказанный минимум. Например, трансформер глубины 2 (см. картинку) может идеально решить L_4, в то время как трансформеры глубины 1 значительно испытывают трудности.

Sparse Hash AI
🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
У аудитории 40+ звуковое сопровождение ролика зашито в прошивку и включается в голове автоматически. Если ваша версия модели выше v2.0.0.0 - просто включите звук 🔊


Sparse Hash AI
🔥1
Attention Layers Add Into Low-Dimensional Residual Subspaces
https://www.alphaxiv.org/ru/overview/2508.16929

Авторы обнаруживают, что слои внимания способствуют формированию удивительно низкоразмерных подпространств в остаточном потоке.

Исследование затрагивает критическую практическую проблему в механистической интерпретируемости: распространенность "мёртвых признаков" в методах разреженного словарного обучения. Это параметры, которые никогда не активируются во время обучения.

Авторы устанавливают прямую эмпирическую зависимость между внутренней размерностью активаций и распространенностью неактивных признаков в SAE. Исследователи представляют Active Subspace Initialization (ASI) – метод, который выравнивает признаки SAE с этой внутренней геометрией, значительно сокращая количество мертвых признаков до менее 1%.

Sparse Hash AI
🔥1
Extracting books from production language models
https://www.alphaxiv.org/overview/2601.02671

Исследователи продемонстрировали способность извлекать существенные, почти дословные фрагменты защищенных авторским правом книг, включая почти целые произведения, из ведущих производственных больших языковых моделей, таких как Claude 3.7 Sonnet, Gemini 2.5 Pro, Grok 3 и GPT-4.1, что выявило значительные ограничения в их текущих механизмах защиты.

Sparse Hash AI