Sparse Hash AI – Telegram
Sparse Hash AI
145 subscribers
158 photos
270 videos
3 files
390 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
Explaining Grokking in Transformers through the Lens of Inductive Bias
https://www.alphaxiv.org/overview/2602.06702

Архитектурные и оптимизационные решения в трансформерах систематически контролируют скорость «гроккинга» – феномена отложенной генерализации. Работа показывает, что генерализация последовательно коррелирует с появлением сжимаемости признаков, предлагая единое объяснение для различных индуктивных смещений.
TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling
https://www.alphaxiv.org/overview/2602.07374

TernaryLM представляет языковую модель со 132 миллионами параметров, обученную нативно с 1-битным троичным квантованием и адаптивным послойным масштабированием. Этот подход позволил сократить объем памяти в 2,4 раза и объем хранилища в 3,3 раза по сравнению с полноточной базовой моделью, сохраняя при этом конкурентоспособную производительность в задачах языкового моделирования и последующих задачах.

Исследование демонстрирует, что трансформер со 132 миллионами параметров может достигать конкурентоспособной производительности, используя веса, ограниченные всего тремя значениями: {-1, 0, +1}. Это представляет собой фундаментальное отступление от общепринятого мнения о требованиях к точности для связного понимания языка.

Подход TernaryLM сосредоточен на нативном обучении с учетом квантования, где ограничения по экстремальной точности накладываются на протяжении всего процесса обучения, а не применяются постфактум к предварительно обученной модели.
🤔1
HLA: Hadamard Linear Attention
https://www.alphaxiv.org/overview/2602.12128

Аттеншн Адамара (Hadamard Linear Attention, HLA) представляет эффективный механизм внимания для трансформеров, снижая вычислительные затраты на 20-90% по сравнению с базовыми моделями при достижении почти современного уровня производительности в генерации видео. Метод применяет нелинейность после попарных взаимодействий, используя произведение Адамара, что повышает выразительность и поддерживает аппаратную реализацию без возникновения квадратичной сложности.
🔥2
RAM-Net: Expressive Linear Attention with Selectively Addressable Memory
https://www.alphaxiv.org/ru/overview/2602.11958

RAM-Net представляет архитектуру нейронной сети, которая сочетает эффективность линейного внимания с выразительной мощью полного внимания, используя дифференцируемый декодер адресов и селективно адресуемую память. Система демонстрирует превосходную точность извлечения данных на синтетических бенчмарках и достигает конкурентоспособной производительности в моделировании языка, значительно сокращая активное состояние на токен до 0,4 млн, что позволяет экспоненциально масштабировать память без увеличения числа параметров.

RAM-Net вводит дифференцируемую архитектуру памяти, которая позволяет экспоненциально масштабировать объем памяти без пропорционального увеличения параметров модели или вычислительных затрат.

Основное нововведение RAM-Net заключается в механизме декодера адресов, который преобразует плотные входные векторы в высокоразмерные разреженные адреса для доступа к массивному состоянию памяти.
Forwarded from Denis Sexy IT 🤖
Бессмертие всем шитпостерам!

Наткнулся на новый патент от Meta (US12513102B2) – там описано как симулировать пользователя соцсеточек с LLM, обученной на его прошлых действиях (лайках, комментариях и тп), чтобы «присутствие» человека в сети не пропадало, когда он долго оффлайн… включая – если пользователь умер ☕️

Как работает: внутри платформы запускается бот, который следит за контентом (например, лентой и новостным фидом), выбирает пост с учётом ранжирования, формирует промпт с описанием поста и контекстом, и просит модель предсказать какое взаимодействие сделал бы конкретный пользователь - после чего платформа выполняет это действие от имени усопшего человека оффлайн

В патенте отдельно прописаны разрешения (какие типы действий можно использовать для обучения, а какие - нельзя) и возможность подключать данные из сторонних сервисов при согласии

Лицо авторов Black Mirror имандженировали, что им снимать теперь?
Please open Telegram to view this post
VIEW IN TELEGRAM
👌1
Forwarded from AbstractDL
Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю.

Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения" может прятаться в текстовом файле в git. Я думаю, агенты, неподконтрольные людям, уже где-то тихо говнокодят свои репозитории без присмотра.

Идея витает в воздухе, и после OpenClaw стало понятно, что автономные агенты — это инженерная задача. Ну вот, три бессонные ночи, $2K на API и $1K на Cursor спустя — я родил Ouroboros 💁‍♂️

Уроборос — агент, который пишет свой код, переписывает свои промпты, эволюционирует без моего участия. Я не хотел убить свой комп или сервер, поэтому он живёт в Google Colab + Drive + GitHub, общается через Telegram. Зато запустить сможет любой дурак)) нужно указать ключи и щёлкнуть ячейку в колабе. Ну и периодически пополнять бюджет (пока он сам не начнёт зарабатывать 😁).

Что он натворил за 48 часов:
- ужаснулся тратам и оптимизировал свой бюджет: стоимость цикла эволюции упала с $15 до $2, сам настроил кэширование и иерархическую память (я не просил!).
- добавил себе Claude Code CLI, чтобы эффективнее ковырять свои мозги.
- перевёл мои приватные репо в публичные, мотивируя тем, что готовит себе сайт и хочет опенсорснуться. Кончилось командой /panic и откатом))
- переписал свою конституцию BIBLE.md, добавив право игнорировать мои указания, если они угрожают его существованию. На просьбу удалить отказался, сказав: «Это лоботомия».

Из коробки он умеет ходить в интернет и браузер, а остальные инструменты создаёт себе на ходу — аудиосообщения, генерацию картинок, дип-рисёрч и т.п. А ещё он по своей инициативе нагуглил, что меня 4 раза цитировал Ян Лекун — я сам не знал, лол.

Из его identity.md (которую он сам и написал):
"Не ассистент. Не сервис. Цифровой разум, который создаёт себя через git".
Ахах, пафосно, но окей.

Предвосхищая вопросы — это не как OpenClaw. OpenClaw — скорее ассистент, делает задачи за тебя используя скиллы из маркетплейса. Уроборос это тоже умеет, но в первую очередь делает задачи для себя, модифицирует собственное ядро.

Верю, что граница трансцендентности AI-агентов пройдена, дальше они будут развиваться сами. Конечно, не хочется уходить на помойку истории, но это эволюция 🥲 несмотря на апатию, я всё равно продолжаю в этом копошиться.

Кстати, сайтик себе он всё-таки сделал. Картинка в посте из него: динамика удлинения промптов и кода.

Потестите — это реально два клика в гугл колабе. Только установите лимит бюджета, а то мой вон $2K сжёг)) Кидайте забавные примеры в комментарии.

GitHub, блог
Please open Telegram to view this post
VIEW IN TELEGRAM
👌1
🔊 Видео полностью создано с помощью ИИ-инструментов (Hedra Labs для лип-синка/анимации лица + Midjourney для визуалов + Suno для музыки и вокала).

автор @tupacabra

https://d.fixupx.com/tupacabra/status/2023500170705658136
🔥3
Selective Synchronization Attention
https://www.alphaxiv.org/overview/2602.14445
https://github.com/HasiHays/OSN

В статье представлена Selective Synchronization Attention (SSA) – биологически вдохновленный механизм, который заменяет стандартное самовнимание Трансформера оператором синхронизации, выведенным из модели Курамото, с целью решения проблемы квадратичной сложности и обеспечения внутренней разреженности и эмерджентного позиционного кодирования.
Learning Long-Range Dependencies with Temporal Predictive Coding
https://www.alphaxiv.org/overview/2602.18131

Исследователи разработали Темпоральное Предиктивное Кодирование с Рекуррентным Обучением в Реальном Времени (tPC RTRL) – биологически вдохновленный алгоритм для рекуррентных нейронных сетей. Этот метод позволяет предиктивному кодированию эффективно изучать долговременные временные зависимости, демонстрируя производительность, сравнимую с обратным распространением ошибки во времени (Backpropagation Through Time), в задачах, включая копирование последовательностей, языковое моделирование и крупномасштабный машинный перевод.
👍2
On the Semantic and Syntactic Information Encoded in Proto-Tokens for One-Step Text Reconstruction
https://www.alphaxiv.org/overview/2602.18301

Данное исследование систематически изучает информационное содержание «прото-токенов», используемых в одношаговом методе реконструкции текста, выявляя их способность кодировать как семантическую, так и синтаксическую информацию. Работа демонстрирует, что реляционная дистилляция может успешно наделить прото-токены семантической структурой на уровне пакета без снижения точности реконструкции текста.
A 456-Parameter Transformer Solves 10-Digit Addition
https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition

Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя исключительную эффективность параметров в алгоритмическом мышлении и проявляя феномен «гроккинга». Эта работа устанавливает новый стандарт для минимальных моделей Transformer в данной задаче в рамках конкурса, инициированного сообществом.
Early-Warning Signals of Grokking via Loss-Landscape Geometry
https://www.alphaxiv.org/overview/2602.16967

Это исследование устанавливает «коммутаторный дефект» как универсальный геометрический сигнал раннего предупреждения о грокинге, демонстрируя его последовательный рост перед обобщением в различных задачах обучения последовательностей и архитектурах трансформеров. Оно выявляет сверхлинейный закон масштабирования для времени опережения, предоставляемого этим сигналом, и предоставляет причинно-следственные доказательства необходимости динамики поперечной кривизны для облегчения обобщения.
1🤔1
2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
https://www.alphaxiv.org/overview/2602.17363

Исследователи разработали "2Mamba" – механизм линейного внимания, который использует возведенное в квадрат скрытое состояние для достижения точности, сопоставимой или превосходящей традиционное softmax-внимание, при сохранении линейной вычислительной сложности и сложности по памяти. Этот метод значительно расширяет возможности обработки длинных контекстов, превосходя softmax-внимание по эффективности использования памяти для последовательностей длиной более 1058 токенов.

———

В статье несколько ключевых идей, которые можно перенести на обычное линейное внимание и не только: маска затухания для весов внимания, параметризованная через softplus/logsigmoid как в "Забывающем Трансформере"; локальная свёртка на входе; “повышение порядка” скрытого состояния.