NEW BOT Телеграм, страница

Sparse Hash AI

Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression
https://www.alphaxiv.org/overview/2503.02812

https://github.com/NathanGodey/qfilters

Представлен Q-Filters – новый метод сжатия кеша ключ-значение языковых моделей без обучения, который достигает передовых результатов и снижает требования к памяти для обработки длинных контекстов благодаря инновационному геометрическому анализу запросов и ключей. В отличие от предыдущих методов, требующих переобучения модели или доступа к весам внимания, Q-Filters предлагает решение, не требующее обучения, которое совместимо с эффективными алгоритмами внимания.

Основное нововведение Q-Filters заключается в геометрическом анализе векторов Q и K. Авторы обнаружили, что эти векторы демонстрируют сильную анизотропию, то есть они не распределены равномерно по всем направлениям, а проявляют сильное предпочтение к определенным направлениям в пространстве встраивания.

Анализируя сингулярное разложение (SVD) векторов Q, исследователи обнаружили, что одно главное направление (первый собственный вектор) захватывает большую часть дисперсии в данных. Это важное понимание предполагает, что информационное содержание векторов Q сильно сконцентрировано вдоль одного измерения.

Основываясь на этих геометрических соображениях, Q-Фильтры оценивают важность кэшированных пар KV, проецируя K векторы на единое, не зависящее от контекста направление: главный собственный вектор Q векторов.

KV пары с наивысшей оценкой сохраняются, а остальные отбрасываются или сжимаются.

Sparse Hash AI

93 views14:18

Sparse Hash AI

Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression https://www.alphaxiv.org/overview/2503.02812 https://github.com/NathanGodey/qfilters Представлен Q-Filters – новый метод сжатия кеша ключ-значение языковых моделей без обучения, который…

95 views14:18

Sparse Hash AI

Sparse Hash AI pinned «Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression https://www.alphaxiv.org/overview/2503.02812 https://github.com/NathanGodey/qfilters Представлен Q-Filters – новый метод сжатия кеша ключ-значение языковых моделей без обучения, который…»

18:03

Sparse Hash AI

Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck
https://www.alphaxiv.org/overview/2404.07647

Статья приводит эмпирическое и теоретическое доказательство, что LM-голова (LM head) в малых языковых моделях создаёт «бутылочное горлышко softmax», ограничивая производительность при скрытой размерности менее 1000, что приводит к дегенерации представлений и насыщению обучения.

Выход производительности на плато (насыщение) может быть объяснено несоответствием между скрытой размерностью меньших моделей и высоким рангом целевого контекстуального распределения вероятностей.

Ключевым выводом является сильная корреляция между насыщением производительности и появлением «анизотропии последнего слоя» — меры того, насколько похожими становятся представления токенов в последних слоях модели.

Авторы обнаруживают, что меньшие модели развивают высокую анизотропию именно тогда, когда производительность начинает деградировать. Напротив, более крупные модели поддерживают относительно низкую анизотропию на протяжении всего обучения и не проявляют насыщения.

Центральный вклад статьи заключается в связывании насыщения производительности с «softmax bottleneck» — теоретическим ограничением, при котором линейная голова языковой модели не может эффективно отображать низкоразмерные представления в высокоразмерные распределения вероятностей по словарю.

Они вводят метрику «сингулярной энтропии». Эта метрика показывает, что небольшие модели испытывают «спектральное насыщение» — их распределения сингулярных значений головы сначала выравниваются, но затем резко коллапсируют в распределения, доминируемые пиками, точно совпадая с деградацией производительности.

Результаты показывают, что производительность значительно снижается, когда ранг падает ниже примерно 1000 измерений. Этот критический порог оказывается стабильным для разных базовых моделей и представляет собой фундаментальную нижнюю границу для эффективного языкового моделирования.

Чтобы понять, почему существует это узкое место, исследователи оценивают внутреннюю размерность естественного языка. Анализ показывает, что хотя 1000-2000 измерений могут уменьшить ошибку аппроксимации вдвое, достижение пренебрежимо малой ошибки требует 10 000-15 000 измерений. Этот резкий контраст с типичными скрытыми измерениями в малых языковых моделях (128-1024) объясняет фундаментальную проблему, с которой сталкиваются эти модели.

Sparse Hash AI

144 views18:21

Sparse Hash AI

Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck https://www.alphaxiv.org/overview/2404.07647 Статья приводит эмпирическое и теоретическое доказательство, что LM-голова (LM head) в малых языковых моделях…

140 views18:22

Sparse Hash AI

Sparse Hash AI pinned «Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck https://www.alphaxiv.org/overview/2404.07647 Статья приводит эмпирическое и теоретическое доказательство, что LM-голова (LM head) в малых языковых моделях…»

17:12

Sparse Hash AI

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

Sparse Hash AI

😁2

112 views23:00

Sparse Hash AI

1:13

This media is not supported in your browser

VIEW IN TELEGRAM

Испытательный полет беспилотника вертикального взлета и посадки Razor P100 от американской компании Mayman Aerospace. БПЛА может нести полезную нагрузку до 45 кг и развивать скорость до 0,75 Маха.

Sparse Hash AI

🔥1

253 views16:06

Sparse Hash AI

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

Adam от PNDbotics

Sparse Hash AI

102 views04:46

Sparse Hash AI

A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
https://www.alphaxiv.org/overview/2601.06851

Большие языковые модели (LLM) спонтанно развивают «синергетическое ядро» в своих средних слоях, информационную архитектуру, которая параллельна когнитивным областям более высокого порядка человеческого мозга. Это ядро характеризуется интегрированной обработкой информации и функционально важно для связного поведения LLM, надежной производительности в сложных задачах и способности обобщать знания, особенно при усилении с помощью обучения с подкреплением.

Sparse Hash AI

🔥3

111 views23:22

Sparse Hash AI

Sparse Hash AI pinned a photo

04:21

Sparse Hash AI

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

Sparse Hash AI

🔥2

82 views03:28

Sparse Hash AI

Knee-Deep in C-RASP: A Transformer Depth Hierarchy
https://www.alphaxiv.org/abs/2506.16055

https://github.com/pentagonalize/CRASP_depth

Данное исследование формально доказывает и эмпирически подтверждает, что реальные модели трансформеров требуют определенной глубины для достижения 100% точности в задачах.

Авторы показывают, что трансформеры демонстрируют строгую иерархию глубины — это означает, что для любой глубины k существуют вычислительные задачи, которые могут быть решены трансформером с k+1 слоями, но не могут быть решены никаким трансформером всего с k слоями.

Модели постоянно достигают 100% точности, когда их глубина соответствует или превышает теоретически предсказанный минимум. Например, трансформер глубины 2 (см. картинку) может идеально решить L_4, в то время как трансформеры глубины 1 значительно испытывают трудности.

Sparse Hash AI

🤔2

65 views05:00

Sparse Hash AI

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

У аудитории 40+ звуковое сопровождение ролика зашито в прошивку и включается в голове автоматически. Если ваша версия модели выше v2.0.0.0 - просто включите звук 🔊

Sparse Hash AI

🔥1

68 views06:05

Sparse Hash AI

Attention Layers Add Into Low-Dimensional Residual Subspaces
https://www.alphaxiv.org/ru/overview/2508.16929

Авторы обнаруживают, что слои внимания способствуют формированию удивительно низкоразмерных подпространств в остаточном потоке.

Исследование затрагивает критическую практическую проблему в механистической интерпретируемости: распространенность "мёртвых признаков" в методах разреженного словарного обучения. Это параметры, которые никогда не активируются во время обучения.

Авторы устанавливают прямую эмпирическую зависимость между внутренней размерностью активаций и распространенностью неактивных признаков в SAE. Исследователи представляют Active Subspace Initialization (ASI) – метод, который выравнивает признаки SAE с этой внутренней геометрией, значительно сокращая количество мертвых признаков до менее 1%.

Sparse Hash AI

🔥1

51 views19:55

Sparse Hash AI