Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings
https://www.alphaxiv.org/overview/2509.10534
Исследователи представляют позиционное вложение в полярных координатах (Polar Coordinate Positional Embedding, PoPE) — метод, который разделяет информацию о содержании и позиционную информацию в трансформерах, переформулируя позиционное кодирование в полярных координатах. PoPE последовательно достигает более низкой перплексии и более высокой точности без предварительной настройки (zero-shot accuracy), чем Rotary Position Embedding (RoPE) в задачах обработки языка, музыки и геномики, а также демонстрирует превосходную экстраполяцию длины без предварительной настройки для последовательностей в 10 раз длиннее обучающих данных.
Sparse Hash AI
https://www.alphaxiv.org/overview/2509.10534
Исследователи представляют позиционное вложение в полярных координатах (Polar Coordinate Positional Embedding, PoPE) — метод, который разделяет информацию о содержании и позиционную информацию в трансформерах, переформулируя позиционное кодирование в полярных координатах. PoPE последовательно достигает более низкой перплексии и более высокой точности без предварительной настройки (zero-shot accuracy), чем Rotary Position Embedding (RoPE) в задачах обработки языка, музыки и геномики, а также демонстрирует превосходную экстраполяцию длины без предварительной настройки для последовательностей в 10 раз длиннее обучающих данных.
Sparse Hash AI
This media is not supported in your browser
VIEW IN TELEGRAM
Прототип противопехотного UGV (Unmanned ground vehicle). Ещё на шаг ближе к "крикунам".
Sparse Hash AI
Sparse Hash AI
🤔1
Deep learning for pedestrians: backpropagation in Transformers
https://www.alphaxiv.org/overview/2512.23329
https://github.com/Ranlot/backpropagation-Transformers
Статья, где вручную выводится обратное распространение ошибки для трансформера GPT, разбивая градиенты на явные потоки для эмбеддингов, self-attention и нормализации слоев, что упрощает понимание обучения.
Ключевой вклад: демонстрация, как LoRA снижает обучаемые веса до 2% при дообучении, с аналитическими формулами и минимальной реализацией на PyTorch, подчеркивая преимущества ручного вычисления над автодифференцированием.
Sparse Hash AI
https://www.alphaxiv.org/overview/2512.23329
https://github.com/Ranlot/backpropagation-Transformers
Статья, где вручную выводится обратное распространение ошибки для трансформера GPT, разбивая градиенты на явные потоки для эмбеддингов, self-attention и нормализации слоев, что упрощает понимание обучения.
Ключевой вклад: демонстрация, как LoRA снижает обучаемые веса до 2% при дообучении, с аналитическими формулами и минимальной реализацией на PyTorch, подчеркивая преимущества ручного вычисления над автодифференцированием.
Sparse Hash AI
👍2
Производительный силосный дроид для обработки зерна – выравнивания, разбивки и проталкивания его в шнек в зернохранилищах сельскохозяйственной планеты Мина-Рау.
Sparse Hash AI
Sparse Hash AI
🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Демонстрация технология магнитной левитации в производстве для замены традиционного конвейера, которая обеспечивает независимое и бесконтактное перемещение.
Sparse Hash AI
Sparse Hash AI
🔥3👍1
Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression
https://www.alphaxiv.org/overview/2503.02812
https://github.com/NathanGodey/qfilters
Представлен Q-Filters – новый метод сжатия кеша ключ-значение языковых моделей без обучения, который достигает передовых результатов и снижает требования к памяти для обработки длинных контекстов благодаря инновационному геометрическому анализу запросов и ключей. В отличие от предыдущих методов, требующих переобучения модели или доступа к весам внимания, Q-Filters предлагает решение, не требующее обучения, которое совместимо с эффективными алгоритмами внимания.
Основное нововведение Q-Filters заключается в геометрическом анализе векторов Q и K. Авторы обнаружили, что эти векторы демонстрируют сильную анизотропию, то есть они не распределены равномерно по всем направлениям, а проявляют сильное предпочтение к определенным направлениям в пространстве встраивания.
Анализируя сингулярное разложение (SVD) векторов Q, исследователи обнаружили, что одно главное направление (первый собственный вектор) захватывает большую часть дисперсии в данных. Это важное понимание предполагает, что информационное содержание векторов Q сильно сконцентрировано вдоль одного измерения.
Основываясь на этих геометрических соображениях, Q-Фильтры оценивают важность кэшированных пар KV, проецируя K векторы на единое, не зависящее от контекста направление: главный собственный вектор Q векторов.
KV пары с наивысшей оценкой сохраняются, а остальные отбрасываются или сжимаются.
Sparse Hash AI
https://www.alphaxiv.org/overview/2503.02812
https://github.com/NathanGodey/qfilters
Представлен Q-Filters – новый метод сжатия кеша ключ-значение языковых моделей без обучения, который достигает передовых результатов и снижает требования к памяти для обработки длинных контекстов благодаря инновационному геометрическому анализу запросов и ключей. В отличие от предыдущих методов, требующих переобучения модели или доступа к весам внимания, Q-Filters предлагает решение, не требующее обучения, которое совместимо с эффективными алгоритмами внимания.
Основное нововведение Q-Filters заключается в геометрическом анализе векторов Q и K. Авторы обнаружили, что эти векторы демонстрируют сильную анизотропию, то есть они не распределены равномерно по всем направлениям, а проявляют сильное предпочтение к определенным направлениям в пространстве встраивания.
Анализируя сингулярное разложение (SVD) векторов Q, исследователи обнаружили, что одно главное направление (первый собственный вектор) захватывает большую часть дисперсии в данных. Это важное понимание предполагает, что информационное содержание векторов Q сильно сконцентрировано вдоль одного измерения.
Основываясь на этих геометрических соображениях, Q-Фильтры оценивают важность кэшированных пар KV, проецируя K векторы на единое, не зависящее от контекста направление: главный собственный вектор Q векторов.
KV пары с наивысшей оценкой сохраняются, а остальные отбрасываются или сжимаются.
Sparse Hash AI
Sparse Hash AI pinned «Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression https://www.alphaxiv.org/overview/2503.02812 https://github.com/NathanGodey/qfilters Представлен Q-Filters – новый метод сжатия кеша ключ-значение языковых моделей без обучения, который…»
Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck
https://www.alphaxiv.org/overview/2404.07647
Статья приводит эмпирическое и теоретическое доказательство, что LM-голова (LM head) в малых языковых моделях создаёт «бутылочное горлышко softmax», ограничивая производительность при скрытой размерности менее 1000, что приводит к дегенерации представлений и насыщению обучения.
Выход производительности на плато (насыщение) может быть объяснено несоответствием между скрытой размерностью меньших моделей и высоким рангом целевого контекстуального распределения вероятностей.
Ключевым выводом является сильная корреляция между насыщением производительности и появлением «анизотропии последнего слоя» — меры того, насколько похожими становятся представления токенов в последних слоях модели.
Авторы обнаруживают, что меньшие модели развивают высокую анизотропию именно тогда, когда производительность начинает деградировать. Напротив, более крупные модели поддерживают относительно низкую анизотропию на протяжении всего обучения и не проявляют насыщения.
Центральный вклад статьи заключается в связывании насыщения производительности с «softmax bottleneck» — теоретическим ограничением, при котором линейная голова языковой модели не может эффективно отображать низкоразмерные представления в высокоразмерные распределения вероятностей по словарю.
Они вводят метрику «сингулярной энтропии». Эта метрика показывает, что небольшие модели испытывают «спектральное насыщение» — их распределения сингулярных значений головы сначала выравниваются, но затем резко коллапсируют в распределения, доминируемые пиками, точно совпадая с деградацией производительности.
Результаты показывают, что производительность значительно снижается, когда ранг падает ниже примерно 1000 измерений. Этот критический порог оказывается стабильным для разных базовых моделей и представляет собой фундаментальную нижнюю границу для эффективного языкового моделирования.
Чтобы понять, почему существует это узкое место, исследователи оценивают внутреннюю размерность естественного языка. Анализ показывает, что хотя 1000-2000 измерений могут уменьшить ошибку аппроксимации вдвое, достижение пренебрежимо малой ошибки требует 10 000-15 000 измерений. Этот резкий контраст с типичными скрытыми измерениями в малых языковых моделях (128-1024) объясняет фундаментальную проблему, с которой сталкиваются эти модели.
Sparse Hash AI
https://www.alphaxiv.org/overview/2404.07647
Статья приводит эмпирическое и теоретическое доказательство, что LM-голова (LM head) в малых языковых моделях создаёт «бутылочное горлышко softmax», ограничивая производительность при скрытой размерности менее 1000, что приводит к дегенерации представлений и насыщению обучения.
Выход производительности на плато (насыщение) может быть объяснено несоответствием между скрытой размерностью меньших моделей и высоким рангом целевого контекстуального распределения вероятностей.
Ключевым выводом является сильная корреляция между насыщением производительности и появлением «анизотропии последнего слоя» — меры того, насколько похожими становятся представления токенов в последних слоях модели.
Авторы обнаруживают, что меньшие модели развивают высокую анизотропию именно тогда, когда производительность начинает деградировать. Напротив, более крупные модели поддерживают относительно низкую анизотропию на протяжении всего обучения и не проявляют насыщения.
Центральный вклад статьи заключается в связывании насыщения производительности с «softmax bottleneck» — теоретическим ограничением, при котором линейная голова языковой модели не может эффективно отображать низкоразмерные представления в высокоразмерные распределения вероятностей по словарю.
Они вводят метрику «сингулярной энтропии». Эта метрика показывает, что небольшие модели испытывают «спектральное насыщение» — их распределения сингулярных значений головы сначала выравниваются, но затем резко коллапсируют в распределения, доминируемые пиками, точно совпадая с деградацией производительности.
Результаты показывают, что производительность значительно снижается, когда ранг падает ниже примерно 1000 измерений. Этот критический порог оказывается стабильным для разных базовых моделей и представляет собой фундаментальную нижнюю границу для эффективного языкового моделирования.
Чтобы понять, почему существует это узкое место, исследователи оценивают внутреннюю размерность естественного языка. Анализ показывает, что хотя 1000-2000 измерений могут уменьшить ошибку аппроксимации вдвое, достижение пренебрежимо малой ошибки требует 10 000-15 000 измерений. Этот резкий контраст с типичными скрытыми измерениями в малых языковых моделях (128-1024) объясняет фундаментальную проблему, с которой сталкиваются эти модели.
Sparse Hash AI