Transformers converge to invariant algorithmic cores
https://www.alphaxiv.org/overview/2602.22600
Джошуа С. Шиффман представляет Алгоритмическую Экстракцию Ядра (ACE) — метод, который выявляет низкоразмерные, инвариантные «алгоритмические основные подпространства» в трансформерах, каузально необходимые и достаточные для выполнения конкретных задач. Эта работа демонстрирует, что независимо обученные модели развивают идентичную динамику ядра, несмотря на расходящиеся веса, и показывает, что единственное одномерное ядро управляет грамматическим числом в моделях GPT-2, что позволяет точно контролировать лингвистические особенности.
https://www.alphaxiv.org/overview/2602.22600
Джошуа С. Шиффман представляет Алгоритмическую Экстракцию Ядра (ACE) — метод, который выявляет низкоразмерные, инвариантные «алгоритмические основные подпространства» в трансформерах, каузально необходимые и достаточные для выполнения конкретных задач. Эта работа демонстрирует, что независимо обученные модели развивают идентичную динамику ядра, несмотря на расходящиеся веса, и показывает, что единственное одномерное ядро управляет грамматическим числом в моделях GPT-2, что позволяет точно контролировать лингвистические особенности.
🤔2🔥1
Sparse Hash AI pinned «Transformers converge to invariant algorithmic cores https://www.alphaxiv.org/overview/2602.22600 Джошуа С. Шиффман представляет Алгоритмическую Экстракцию Ядра (ACE) — метод, который выявляет низкоразмерные, инвариантные «алгоритмические основные подпространства»…»
Guiding Sparse Neural Networks with Neurobiological Principles to Elicit Biologically Plausible Representations
Управление разреженными нейронными сетями на основе нейробиологических принципов для получения биологически правдоподобных представлений
https://www.alphaxiv.org/overview/2603.03234
Исследователи из Института KEIM и Технического университета Хемница разработали биологически инспирированное правило обучения для разреженных нейронных сетей, которое изначально включает в себя такие принципы, как разреженность и логнормальное распределение весов. Этот подход демонстрирует улучшенную устойчивость к состязательным атакам и превосходную производительность в обучении с малым количеством примеров по сравнению с существующими методами, особенно в глубоких, чисто возбуждающих архитектурах.
Управление разреженными нейронными сетями на основе нейробиологических принципов для получения биологически правдоподобных представлений
https://www.alphaxiv.org/overview/2603.03234
Исследователи из Института KEIM и Технического университета Хемница разработали биологически инспирированное правило обучения для разреженных нейронных сетей, которое изначально включает в себя такие принципы, как разреженность и логнормальное распределение весов. Этот подход демонстрирует улучшенную устойчивость к состязательным атакам и превосходную производительность в обучении с малым количеством примеров по сравнению с существующими методами, особенно в глубоких, чисто возбуждающих архитектурах.
👍2
Sparse Hash AI pinned «Guiding Sparse Neural Networks with Neurobiological Principles to Elicit Biologically Plausible Representations Управление разреженными нейронными сетями на основе нейробиологических принципов для получения биологически правдоподобных представлений https:…»
Emerging Human-like Strategies for Semantic Memory Foraging in Large Language Models
Возникающие человекоподобные стратегии поиска семантической памяти в больших языковых моделях
https://www.alphaxiv.org/overview/2603.01822
Исследователи изучили извлечение семантической памяти в больших языковых моделях, продемонстрировав, что LLM проявляют когнитивные стратегии, подобные человеческим, для конвергентного и дивергентного поиска во время задач на семантическую беглость. Исследование выявило внутренние вычислительные признаки этих стратегий в архитектурах LLM, показав сильное поведенческое соответствие с людьми и высокую декодируемость из внутренних представлений с использованием методов механистической интерпретируемости.
Возникающие человекоподобные стратегии поиска семантической памяти в больших языковых моделях
https://www.alphaxiv.org/overview/2603.01822
Исследователи изучили извлечение семантической памяти в больших языковых моделях, продемонстрировав, что LLM проявляют когнитивные стратегии, подобные человеческим, для конвергентного и дивергентного поиска во время задач на семантическую беглость. Исследование выявило внутренние вычислительные признаки этих стратегий в архитектурах LLM, показав сильное поведенческое соответствие с людьми и высокую декодируемость из внутренних представлений с использованием методов механистической интерпретируемости.
Sparse Hash AI
Guiding Sparse Neural Networks with Neurobiological Principles to Elicit Biologically Plausible Representations Управление разреженными нейронными сетями на основе нейробиологических принципов для получения биологически правдоподобных представлений https:…
Energy-Efficient Information Representation in MNIST Classification Using Biologically Inspired Learning
Энергоэффективное представление информации при классификации MNIST с использованием биологически инспирированного обучения
https://www.alphaxiv.org/overview/2603.00588
Исследователи из Института KEIM и Технического университета Хемница разработали биологически инспирированное правило обучения для разреженных нейронных сетей, которое изначально включает в себя такие принципы, как разреженность и логнормальное распределение весов. Этот подход демонстрирует улучшенную устойчивость к состязательным атакам и превосходную производительность в обучении с малым количеством примеров по сравнению с существующими методами, особенно в глубоких, чисто возбуждающих архитектурах.
Энергоэффективное представление информации при классификации MNIST с использованием биологически инспирированного обучения
https://www.alphaxiv.org/overview/2603.00588
Исследователи из Института KEIM и Технического университета Хемница разработали биологически инспирированное правило обучения для разреженных нейронных сетей, которое изначально включает в себя такие принципы, как разреженность и логнормальное распределение весов. Этот подход демонстрирует улучшенную устойчивость к состязательным атакам и превосходную производительность в обучении с малым количеством примеров по сравнению с существующими методами, особенно в глубоких, чисто возбуждающих архитектурах.
OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control
https://extreme-humanoid.github.io/
https://d.fixupx.com/TheHumanoidHub/status/2028520139948519910
https://extreme-humanoid.github.io/
https://d.fixupx.com/TheHumanoidHub/status/2028520139948519910
🔥2
Understanding the Physics of Key-Value Cache Compression for LLMs through Attention Dynamics
Понимание физики сжатия KV-кэша для LLM через динамику внимания
https://www.alphaxiv.org/overview/2603.01426
Исследователи из ИИТ Дели разработали основанную на физических принципах структуру для анализа сжатия кэша «ключ-значение» (KV) в больших языковых моделях, показав, что текущие оценки часто упускают из виду структурные проблемы. Их работа выявила «обрыв безопасности галлюцинаций» при сильном сжатии, связанный с глобальным вытеснением критически важных токенов, и продемонстрировала различные динамики маршрутизации внимания между архитектурами LLaMA и Qwen.
———
Авторы предполагают, что KV-кеш функционирует не просто как пассивное хранилище памяти, а как активный механизм маршрутизации, который строит динамические пути через головы и слои внимания.
В статье вводится концепция «лотерейных билетов маршрутов токенов» (TR-LTs), расширяющая влиятельную гипотезу лотерейного билета на динамику внимания во время инференса. Основная гипотеза утверждает, что внутри плотных слоев внимания существуют разреженные межголовочные и межслойные пути, которые сохраняют семантическую достижимость, необходимую для правильной генерации.
Понимание физики сжатия KV-кэша для LLM через динамику внимания
https://www.alphaxiv.org/overview/2603.01426
Исследователи из ИИТ Дели разработали основанную на физических принципах структуру для анализа сжатия кэша «ключ-значение» (KV) в больших языковых моделях, показав, что текущие оценки часто упускают из виду структурные проблемы. Их работа выявила «обрыв безопасности галлюцинаций» при сильном сжатии, связанный с глобальным вытеснением критически важных токенов, и продемонстрировала различные динамики маршрутизации внимания между архитектурами LLaMA и Qwen.
———
Авторы предполагают, что KV-кеш функционирует не просто как пассивное хранилище памяти, а как активный механизм маршрутизации, который строит динамические пути через головы и слои внимания.
В статье вводится концепция «лотерейных билетов маршрутов токенов» (TR-LTs), расширяющая влиятельную гипотезу лотерейного билета на динамику внимания во время инференса. Основная гипотеза утверждает, что внутри плотных слоев внимания существуют разреженные межголовочные и межслойные пути, которые сохраняют семантическую достижимость, необходимую для правильной генерации.