Sparse Hash AI – Telegram
Sparse Hash AI
145 subscribers
158 photos
270 videos
3 files
390 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
🔊 Видео полностью создано с помощью ИИ-инструментов (Hedra Labs для лип-синка/анимации лица + Midjourney для визуалов + Suno для музыки и вокала).

автор @tupacabra

https://d.fixupx.com/tupacabra/status/2023500170705658136
🔥3
Selective Synchronization Attention
https://www.alphaxiv.org/overview/2602.14445
https://github.com/HasiHays/OSN

В статье представлена Selective Synchronization Attention (SSA) – биологически вдохновленный механизм, который заменяет стандартное самовнимание Трансформера оператором синхронизации, выведенным из модели Курамото, с целью решения проблемы квадратичной сложности и обеспечения внутренней разреженности и эмерджентного позиционного кодирования.
Learning Long-Range Dependencies with Temporal Predictive Coding
https://www.alphaxiv.org/overview/2602.18131

Исследователи разработали Темпоральное Предиктивное Кодирование с Рекуррентным Обучением в Реальном Времени (tPC RTRL) – биологически вдохновленный алгоритм для рекуррентных нейронных сетей. Этот метод позволяет предиктивному кодированию эффективно изучать долговременные временные зависимости, демонстрируя производительность, сравнимую с обратным распространением ошибки во времени (Backpropagation Through Time), в задачах, включая копирование последовательностей, языковое моделирование и крупномасштабный машинный перевод.
👍2
On the Semantic and Syntactic Information Encoded in Proto-Tokens for One-Step Text Reconstruction
https://www.alphaxiv.org/overview/2602.18301

Данное исследование систематически изучает информационное содержание «прото-токенов», используемых в одношаговом методе реконструкции текста, выявляя их способность кодировать как семантическую, так и синтаксическую информацию. Работа демонстрирует, что реляционная дистилляция может успешно наделить прото-токены семантической структурой на уровне пакета без снижения точности реконструкции текста.
A 456-Parameter Transformer Solves 10-Digit Addition
https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition

Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя исключительную эффективность параметров в алгоритмическом мышлении и проявляя феномен «гроккинга». Эта работа устанавливает новый стандарт для минимальных моделей Transformer в данной задаче в рамках конкурса, инициированного сообществом.
Early-Warning Signals of Grokking via Loss-Landscape Geometry
https://www.alphaxiv.org/overview/2602.16967

Это исследование устанавливает «коммутаторный дефект» как универсальный геометрический сигнал раннего предупреждения о грокинге, демонстрируя его последовательный рост перед обобщением в различных задачах обучения последовательностей и архитектурах трансформеров. Оно выявляет сверхлинейный закон масштабирования для времени опережения, предоставляемого этим сигналом, и предоставляет причинно-следственные доказательства необходимости динамики поперечной кривизны для облегчения обобщения.
1🤔1
2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
https://www.alphaxiv.org/overview/2602.17363

Исследователи разработали "2Mamba" – механизм линейного внимания, который использует возведенное в квадрат скрытое состояние для достижения точности, сопоставимой или превосходящей традиционное softmax-внимание, при сохранении линейной вычислительной сложности и сложности по памяти. Этот метод значительно расширяет возможности обработки длинных контекстов, превосходя softmax-внимание по эффективности использования памяти для последовательностей длиной более 1058 токенов.

———

В статье несколько ключевых идей, которые можно перенести на обычное линейное внимание и не только: маска затухания для весов внимания, параметризованная через softplus/logsigmoid как в "Забывающем Трансформере"; локальная свёртка на входе; “повышение порядка” скрытого состояния.
Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression
https://www.alphaxiv.org/overview/2602.17063

Фреймворк «Блокировка Знака» (Sign Lock-In) исследует, почему случайным образом инициализированные знаки весов в нейронных сетях имеют тенденцию сохраняться на протяжении всего обучения, действуя как узкое место для суббитовой компрессии моделей. Эта работа представляет механистическую теорию для объяснения устойчивости знаков и предлагает практические методы, такие как сжимаемые шаблоны знаков, инициализация с разрывом и регуляризация внешнего дрейфа, для активного управления структурой знаков, достигая превосходной производительности в конвейерах суббитовой компрессии.
* Оригинальное привлечение внимания к своей статье.

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns
Эффективное непрерывное обучение в языковых моделях посредством таламически маршрутизированных корковых колонок
https://www.alphaxiv.org/overview/2602.22479

Афшин Хаданги из Люксембургского университета представляет TRC², архитектуру языковой модели, разработанную для встраивания эффективных возможностей непрерывного обучения непосредственно в ее структуру. Эта биологически вдохновленная модель значительно снижает катастрофическое забывание и улучшает производительность языкового моделирования на нескольких наборах данных, изначально управляя компромиссом между стабильностью и пластичностью.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Создано с помощью Grok Imagine (оригинальное изображение Лучианы), Nano Banana (изображение главы семьи) и анимировано Seedance 2.

автор
🥰1
Accelerated Predictive Coding Networks via Direct Kolen-Pollack Feedback Alignment
https://www.alphaxiv.org/ru/overview/2602.15571

Прямое предиктивное кодирование Колена–Поллака (DKP-PC) представляет метод решения проблем задержек распространения ошибок и их затухания в стандартных сетях предиктивного кодирования путем интеграции прямой обратной связи, что обеспечивает полное распараллеливание обучения. Этот подход сокращает время обучения до 81% по сравнению с инкрементальным ПК, достигая при этом конкурентной производительности классификации, особенно на более глубоких архитектурах и сложных наборах данных.
🔥1
Sparse Hash AI pinned «Accelerated Predictive Coding Networks via Direct Kolen-Pollack Feedback Alignment https://www.alphaxiv.org/ru/overview/2602.15571 Прямое предиктивное кодирование Колена–Поллака (DKP-PC) представляет метод решения проблем задержек распространения ошибок и…»
On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking
https://www.alphaxiv.org/overview/2602.16849

Детальная механистическая интерпретация показывает, как двухслойные нейронные сети изучают модульное сложение путем обнаружения и использования Фурье-признаков. Работа также характеризует феномен грокинга как трехэтапный процесс, объясняя взаимодействие между минимизацией потерь и затуханием весов в переходе от запоминания к обобщению.
👍1
Transformers converge to invariant algorithmic cores
https://www.alphaxiv.org/overview/2602.22600

Джошуа С. Шиффман представляет Алгоритмическую Экстракцию Ядра (ACE) — метод, который выявляет низкоразмерные, инвариантные «алгоритмические основные подпространства» в трансформерах, каузально необходимые и достаточные для выполнения конкретных задач. Эта работа демонстрирует, что независимо обученные модели развивают идентичную динамику ядра, несмотря на расходящиеся веса, и показывает, что единственное одномерное ядро управляет грамматическим числом в моделях GPT-2, что позволяет точно контролировать лингвистические особенности.
🤔2🔥1
Sparse Hash AI pinned «Transformers converge to invariant algorithmic cores https://www.alphaxiv.org/overview/2602.22600 Джошуа С. Шиффман представляет Алгоритмическую Экстракцию Ядра (ACE) — метод, который выявляет низкоразмерные, инвариантные «алгоритмические основные подпространства»…»