NEW BOT Телеграм, страница

Sparse Hash AI

A 456-Parameter Transformer Solves 10-Digit Addition
https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition

Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя исключительную эффективность параметров в алгоритмическом мышлении и проявляя феномен «гроккинга». Эта работа устанавливает новый стандарт для минимальных моделей Transformer в данной задаче в рамках конкурса, инициированного сообществом.

97 views17:39

Sparse Hash AI

Early-Warning Signals of Grokking via Loss-Landscape Geometry
https://www.alphaxiv.org/overview/2602.16967

Это исследование устанавливает «коммутаторный дефект» как универсальный геометрический сигнал раннего предупреждения о грокинге, демонстрируя его последовательный рост перед обобщением в различных задачах обучения последовательностей и архитектурах трансформеров. Оно выявляет сверхлинейный закон масштабирования для времени опережения, предоставляемого этим сигналом, и предоставляет причинно-следственные доказательства необходимости динамики поперечной кривизны для облегчения обобщения.

✍1🤔1

79 views12:55

Sparse Hash AI

A 456-Parameter Transformer Solves 10-Digit Addition https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя…

Таблица лидеров для минималистичных трансформеров, способных складывать два десятизначных числа.

https://github.com/anadim/AdderBoard

75 views22:22

Sparse Hash AI

И, похоже, победитель - Трансформер с одним параметром.

https://x.com/Ji_Ha_Kim/status/2026751784887144463

😁1

80 views22:26

Sparse Hash AI

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
https://www.alphaxiv.org/overview/2602.17363

Исследователи разработали "2Mamba" – механизм линейного внимания, который использует возведенное в квадрат скрытое состояние для достижения точности, сопоставимой или превосходящей традиционное softmax-внимание, при сохранении линейной вычислительной сложности и сложности по памяти. Этот метод значительно расширяет возможности обработки длинных контекстов, превосходя softmax-внимание по эффективности использования памяти для последовательностей длиной более 1058 токенов.

———

В статье несколько ключевых идей, которые можно перенести на обычное линейное внимание и не только: маска затухания для весов внимания, параметризованная через softplus/logsigmoid как в "Забывающем Трансформере"; локальная свёртка на входе; “повышение порядка” скрытого состояния.

75 viewsedited 20:32

Sparse Hash AI

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

https://huggingface.co/spaces/multimodalart/qwen-image-multiple-angles-3d-camera

🔥3👍1

78 views12:08

Sparse Hash AI

Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression
https://www.alphaxiv.org/overview/2602.17063

Фреймворк «Блокировка Знака» (Sign Lock-In) исследует, почему случайным образом инициализированные знаки весов в нейронных сетях имеют тенденцию сохраняться на протяжении всего обучения, действуя как узкое место для суббитовой компрессии моделей. Эта работа представляет механистическую теорию для объяснения устойчивости знаков и предлагает практические методы, такие как сжимаемые шаблоны знаков, инициализация с разрывом и регуляризация внешнего дрейфа, для активного управления структурой знаков, достигая превосходной производительности в конвейерах суббитовой компрессии.

73 views15:57

Sparse Hash AI

* Оригинальное привлечение внимания к своей статье.

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns
Эффективное непрерывное обучение в языковых моделях посредством таламически маршрутизированных корковых колонок
https://www.alphaxiv.org/overview/2602.22479

Афшин Хаданги из Люксембургского университета представляет TRC², архитектуру языковой модели, разработанную для встраивания эффективных возможностей непрерывного обучения непосредственно в ее структуру. Эта биологически вдохновленная модель значительно снижает катастрофическое забывание и улучшает производительность языкового моделирования на нескольких наборах данных, изначально управляя компромиссом между стабильностью и пластичностью.

👍1

81 views19:16

Sparse Hash AI

https://d.fixupx.com/TheCatsX/status/2027876466067689534

0:12

🔥1

72 views16:14

Sparse Hash AI

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Создано с помощью Grok Imagine (оригинальное изображение Лучианы), Nano Banana (изображение главы семьи) и анимировано Seedance 2.

автор

🥰1

66 views19:52

Sparse Hash AI

Accelerated Predictive Coding Networks via Direct Kolen-Pollack Feedback Alignment
https://www.alphaxiv.org/ru/overview/2602.15571

Прямое предиктивное кодирование Колена–Поллака (DKP-PC) представляет метод решения проблем задержек распространения ошибок и их затухания в стандартных сетях предиктивного кодирования путем интеграции прямой обратной связи, что обеспечивает полное распараллеливание обучения. Этот подход сокращает время обучения до 81% по сравнению с инкрементальным ПК, достигая при этом конкурентной производительности классификации, особенно на более глубоких архитектурах и сложных наборах данных.

🔥1

64 views21:00

Sparse Hash AI

Sparse Hash AI pinned «Accelerated Predictive Coding Networks via Direct Kolen-Pollack Feedback Alignment https://www.alphaxiv.org/ru/overview/2602.15571 Прямое предиктивное кодирование Колена–Поллака (DKP-PC) представляет метод решения проблем задержек распространения ошибок и…»

21:01

Sparse Hash AI

On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking
https://www.alphaxiv.org/overview/2602.16849

Детальная механистическая интерпретация показывает, как двухслойные нейронные сети изучают модульное сложение путем обнаружения и использования Фурье-признаков. Работа также характеризует феномен грокинга как трехэтапный процесс, объясняя взаимодействие между минимизацией потерь и затуханием весов в переходе от запоминания к обобщению.

👍1

61 views03:05

Sparse Hash AI

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Seedance 2.0

🔥2❤1

53 views11:58

Sparse Hash AI

Transformers converge to invariant algorithmic cores
https://www.alphaxiv.org/overview/2602.22600

Джошуа С. Шиффман представляет Алгоритмическую Экстракцию Ядра (ACE) — метод, который выявляет низкоразмерные, инвариантные «алгоритмические основные подпространства» в трансформерах, каузально необходимые и достаточные для выполнения конкретных задач. Эта работа демонстрирует, что независимо обученные модели развивают идентичную динамику ядра, несмотря на расходящиеся веса, и показывает, что единственное одномерное ядро управляет грамматическим числом в моделях GPT-2, что позволяет точно контролировать лингвистические особенности.

🤔2🔥1

66 views13:06

Sparse Hash AI

Sparse Hash AI pinned «Transformers converge to invariant algorithmic cores https://www.alphaxiv.org/overview/2602.22600 Джошуа С. Шиффман представляет Алгоритмическую Экстракцию Ядра (ACE) — метод, который выявляет низкоразмерные, инвариантные «алгоритмические основные подпространства»…»

13:06

Sparse Hash AI

AbstractDL

Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю. Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения"…

https://d.fixupx.com/rohanpaul_ai/status/2028761044726980901

1:23

🔥3

60 views02:59

Sparse Hash AI

Guiding Sparse Neural Networks with Neurobiological Principles to Elicit Biologically Plausible Representations
Управление разреженными нейронными сетями на основе нейробиологических принципов для получения биологически правдоподобных представлений
https://www.alphaxiv.org/overview/2603.03234

Исследователи из Института KEIM и Технического университета Хемница разработали биологически инспирированное правило обучения для разреженных нейронных сетей, которое изначально включает в себя такие принципы, как разреженность и логнормальное распределение весов. Этот подход демонстрирует улучшенную устойчивость к состязательным атакам и превосходную производительность в обучении с малым количеством примеров по сравнению с существующими методами, особенно в глубоких, чисто возбуждающих архитектурах.

👍2

76 views02:59

Sparse Hash AI

Sparse Hash AI pinned «Guiding Sparse Neural Networks with Neurobiological Principles to Elicit Biologically Plausible Representations Управление разреженными нейронными сетями на основе нейробиологических принципов для получения биологически правдоподобных представлений https:…»

10:12

Sparse Hash AI

Emerging Human-like Strategies for Semantic Memory Foraging in Large Language Models
Возникающие человекоподобные стратегии поиска семантической памяти в больших языковых моделях
https://www.alphaxiv.org/overview/2603.01822

Исследователи изучили извлечение семантической памяти в больших языковых моделях, продемонстрировав, что LLM проявляют когнитивные стратегии, подобные человеческим, для конвергентного и дивергентного поиска во время задач на семантическую беглость. Исследование выявило внутренние вычислительные признаки этих стратегий в архитектурах LLM, показав сильное поведенческое соответствие с людьми и высокую декодируемость из внутренних представлений с использованием методов механистической интерпретируемости.

55 views14:18

Sparse Hash AI

Guiding Sparse Neural Networks with Neurobiological Principles to Elicit Biologically Plausible Representations Управление разреженными нейронными сетями на основе нейробиологических принципов для получения биологически правдоподобных представлений https:…

Energy-Efficient Information Representation in MNIST Classification Using Biologically Inspired Learning
Энергоэффективное представление информации при классификации MNIST с использованием биологически инспирированного обучения
https://www.alphaxiv.org/overview/2603.00588

Исследователи из Института KEIM и Технического университета Хемница разработали биологически инспирированное правило обучения для разреженных нейронных сетей, которое изначально включает в себя такие принципы, как разреженность и логнормальное распределение весов. Этот подход демонстрирует улучшенную устойчивость к состязательным атакам и превосходную производительность в обучении с малым количеством примеров по сравнению с существующими методами, особенно в глубоких, чисто возбуждающих архитектурах.

55 views15:18

About

Blog

Apps

Platform