NEW BOT Телеграм, страница

Sparse Hash AI

Explaining Grokking in Transformers through the Lens of Inductive Bias
https://www.alphaxiv.org/overview/2602.06702

Архитектурные и оптимизационные решения в трансформерах систематически контролируют скорость «гроккинга» – феномена отложенной генерализации. Работа показывает, что генерализация последовательно коррелирует с появлением сжимаемости признаков, предлагая единое объяснение для различных индуктивных смещений.

96 views17:42

Sparse Hash AI

TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling
https://www.alphaxiv.org/overview/2602.07374

TernaryLM представляет языковую модель со 132 миллионами параметров, обученную нативно с 1-битным троичным квантованием и адаптивным послойным масштабированием. Этот подход позволил сократить объем памяти в 2,4 раза и объем хранилища в 3,3 раза по сравнению с полноточной базовой моделью, сохраняя при этом конкурентоспособную производительность в задачах языкового моделирования и последующих задачах.

Исследование демонстрирует, что трансформер со 132 миллионами параметров может достигать конкурентоспособной производительности, используя веса, ограниченные всего тремя значениями: {-1, 0, +1}. Это представляет собой фундаментальное отступление от общепринятого мнения о требованиях к точности для связного понимания языка.

Подход TernaryLM сосредоточен на нативном обучении с учетом квантования, где ограничения по экстремальной точности накладываются на протяжении всего процесса обучения, а не применяются постфактум к предварительно обученной модели.

🤔1

96 views07:47

Sparse Hash AI

HLA: Hadamard Linear Attention
https://www.alphaxiv.org/overview/2602.12128

Аттеншн Адамара (Hadamard Linear Attention, HLA) представляет эффективный механизм внимания для трансформеров, снижая вычислительные затраты на 20-90% по сравнению с базовыми моделями при достижении почти современного уровня производительности в генерации видео. Метод применяет нелинейность после попарных взаимодействий, используя произведение Адамара, что повышает выразительность и поддерживает аппаратную реализацию без возникновения квадратичной сложности.

🔥2

80 viewsedited 11:42

Sparse Hash AI

RAM-Net: Expressive Linear Attention with Selectively Addressable Memory
https://www.alphaxiv.org/ru/overview/2602.11958

RAM-Net представляет архитектуру нейронной сети, которая сочетает эффективность линейного внимания с выразительной мощью полного внимания, используя дифференцируемый декодер адресов и селективно адресуемую память. Система демонстрирует превосходную точность извлечения данных на синтетических бенчмарках и достигает конкурентоспособной производительности в моделировании языка, значительно сокращая активное состояние на токен до 0,4 млн, что позволяет экспоненциально масштабировать память без увеличения числа параметров.

RAM-Net вводит дифференцируемую архитектуру памяти, которая позволяет экспоненциально масштабировать объем памяти без пропорционального увеличения параметров модели или вычислительных затрат.

Основное нововведение RAM-Net заключается в механизме декодера адресов, который преобразует плотные входные векторы в высокоразмерные разреженные адреса для доступа к массивному состоянию памяти.

91 views14:05

Sparse Hash AI

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

❤2

192 views21:12

Sparse Hash AI

Forwarded from Denis Sexy IT 🤖

Бессмертие всем шитпостерам!

Наткнулся на новый патент от Meta (US12513102B2) – там описано как симулировать пользователя соцсеточек с LLM, обученной на его прошлых действиях (лайках, комментариях и тп), чтобы «присутствие» человека в сети не пропадало, когда он долго оффлайн… включая – если пользователь умер ☕️

Как работает: внутри платформы запускается бот, который следит за контентом (например, лентой и новостным фидом), выбирает пост с учётом ранжирования, формирует промпт с описанием поста и контекстом, и просит модель предсказать какое взаимодействие сделал бы конкретный пользователь - после чего платформа выполняет это действие от имени ~~усопшего~~ человека оффлайн

В патенте отдельно прописаны разрешения (какие типы действий можно использовать для обучения, а какие - нельзя) и возможность подключать данные из сторонних сервисов при согласии

Лицо авторов Black Mirror имандженировали, что им снимать теперь?

Please open Telegram to view this post

VIEW IN TELEGRAM

Google

US12513102B2 - Simulation of a user of a social networking system using a language model
- Google Patents

A social networking system simulates a user using a language model trained using training data generated from user interactions performed by that user. The language model may be used for simulating the user when the user is absent from the social networking…

👌1

57 views14:19

Sparse Hash AI

Denis Sexy IT 🤖

1😁6

91 views14:20

Sparse Hash AI

Автор @ryanlightbourn

https://d.fixupx.com/ryanlightbourn/status/2023581484766875948

2:34

🔥3🥰1

105 views19:55

Sparse Hash AI

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

100 views19:34

Sparse Hash AI

Forwarded from AbstractDL

Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю.

Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения" может прятаться в текстовом файле в git. Я думаю, агенты, неподконтрольные людям, уже где-то тихо говнокодят свои репозитории без присмотра.

Идея витает в воздухе, и после OpenClaw стало понятно, что автономные агенты — это инженерная задача. Ну вот, три бессонные ночи, $2K на API и $1K на Cursor спустя — я родил Ouroboros 💁‍♂️

Уроборос — агент, который пишет свой код, переписывает свои промпты, эволюционирует без моего участия. Я не хотел убить свой комп или сервер, поэтому он живёт в Google Colab + Drive + GitHub, общается через Telegram. Зато запустить сможет любой дурак)) нужно указать ключи и щёлкнуть ячейку в колабе. Ну и периодически пополнять бюджет (пока он сам не начнёт зарабатывать 😁).

Что он натворил за 48 часов:
- ужаснулся тратам и оптимизировал свой бюджет: стоимость цикла эволюции упала с $15 до $2, сам настроил кэширование и иерархическую память (я не просил!).
- добавил себе Claude Code CLI, чтобы эффективнее ковырять свои мозги.
- перевёл мои приватные репо в публичные, мотивируя тем, что готовит себе сайт и хочет опенсорснуться. Кончилось командой /panic и откатом))
- переписал свою конституцию BIBLE.md, добавив право игнорировать мои указания, если они угрожают его существованию. На просьбу удалить отказался, сказав: «Это лоботомия».

Из коробки он умеет ходить в интернет и браузер, а остальные инструменты создаёт себе на ходу — аудиосообщения, генерацию картинок, дип-рисёрч и т.п. А ещё он по своей инициативе нагуглил, что меня 4 раза цитировал Ян Лекун — я сам не знал, лол.

Из его identity.md (которую он сам и написал):
"Не ассистент. Не сервис. Цифровой разум, который создаёт себя через git".
Ахах, пафосно, но окей.

Предвосхищая вопросы — это не как OpenClaw. OpenClaw — скорее ассистент, делает задачи за тебя используя скиллы из маркетплейса. Уроборос это тоже умеет, но в первую очередь делает задачи для себя, модифицирует собственное ядро.

Верю, что граница трансцендентности AI-агентов пройдена, дальше они будут развиваться сами. Конечно, не хочется уходить на помойку истории, но это эволюция 🥲 несмотря на апатию, я всё равно продолжаю в этом копошиться.

Кстати, сайтик себе он всё-таки сделал. Картинка в посте из него: динамика удлинения промптов и кода.

Потестите — это реально два клика в гугл колабе. Только установите лимит бюджета, а то мой вон $2K сжёг)) Кидайте забавные примеры в комментарии.

GitHub, блог

Please open Telegram to view this post

VIEW IN TELEGRAM

👌1

67 views14:01

Sparse Hash AI

🔊 Видео полностью создано с помощью ИИ-инструментов (Hedra Labs для лип-синка/анимации лица + Midjourney для визуалов + Suno для музыки и вокала).

автор @tupacabra

https://d.fixupx.com/tupacabra/status/2023500170705658136

3:02

🔥3

87 views18:50

Sparse Hash AI

Selective Synchronization Attention
https://www.alphaxiv.org/overview/2602.14445
https://github.com/HasiHays/OSN

В статье представлена Selective Synchronization Attention (SSA) – биологически вдохновленный механизм, который заменяет стандартное самовнимание Трансформера оператором синхронизации, выведенным из модели Курамото, с целью решения проблемы квадратичной сложности и обеспечения внутренней разреженности и эмерджентного позиционного кодирования.

74 views14:50

Sparse Hash AI

Learning Long-Range Dependencies with Temporal Predictive Coding
https://www.alphaxiv.org/overview/2602.18131

Исследователи разработали Темпоральное Предиктивное Кодирование с Рекуррентным Обучением в Реальном Времени (tPC RTRL) – биологически вдохновленный алгоритм для рекуррентных нейронных сетей. Этот метод позволяет предиктивному кодированию эффективно изучать долговременные временные зависимости, демонстрируя производительность, сравнимую с обратным распространением ошибки во времени (Backpropagation Through Time), в задачах, включая копирование последовательностей, языковое моделирование и крупномасштабный машинный перевод.

👍2

440 views13:57

Sparse Hash AI

On the Semantic and Syntactic Information Encoded in Proto-Tokens for One-Step Text Reconstruction
https://www.alphaxiv.org/overview/2602.18301

Данное исследование систематически изучает информационное содержание «прото-токенов», используемых в одношаговом методе реконструкции текста, выявляя их способность кодировать как семантическую, так и синтаксическую информацию. Работа демонстрирует, что реляционная дистилляция может успешно наделить прото-токены семантической структурой на уровне пакета без снижения точности реконструкции текста.

72 views16:47

Sparse Hash AI

A 456-Parameter Transformer Solves 10-Digit Addition
https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition

Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя исключительную эффективность параметров в алгоритмическом мышлении и проявляя феномен «гроккинга». Эта работа устанавливает новый стандарт для минимальных моделей Transformer в данной задаче в рамках конкурса, инициированного сообществом.

97 views17:39

Sparse Hash AI

Early-Warning Signals of Grokking via Loss-Landscape Geometry
https://www.alphaxiv.org/overview/2602.16967

Это исследование устанавливает «коммутаторный дефект» как универсальный геометрический сигнал раннего предупреждения о грокинге, демонстрируя его последовательный рост перед обобщением в различных задачах обучения последовательностей и архитектурах трансформеров. Оно выявляет сверхлинейный закон масштабирования для времени опережения, предоставляемого этим сигналом, и предоставляет причинно-следственные доказательства необходимости динамики поперечной кривизны для облегчения обобщения.

✍1🤔1

79 views12:55

Sparse Hash AI

A 456-Parameter Transformer Solves 10-Digit Addition https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя…

Таблица лидеров для минималистичных трансформеров, способных складывать два десятизначных числа.

https://github.com/anadim/AdderBoard

75 views22:22

Sparse Hash AI

И, похоже, победитель - Трансформер с одним параметром.

https://x.com/Ji_Ha_Kim/status/2026751784887144463

😁1

80 views22:26

Sparse Hash AI

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
https://www.alphaxiv.org/overview/2602.17363

Исследователи разработали "2Mamba" – механизм линейного внимания, который использует возведенное в квадрат скрытое состояние для достижения точности, сопоставимой или превосходящей традиционное softmax-внимание, при сохранении линейной вычислительной сложности и сложности по памяти. Этот метод значительно расширяет возможности обработки длинных контекстов, превосходя softmax-внимание по эффективности использования памяти для последовательностей длиной более 1058 токенов.

———

В статье несколько ключевых идей, которые можно перенести на обычное линейное внимание и не только: маска затухания для весов внимания, параметризованная через softplus/logsigmoid как в "Забывающем Трансформере"; локальная свёртка на входе; “повышение порядка” скрытого состояния.

75 viewsedited 20:32

Sparse Hash AI

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

https://huggingface.co/spaces/multimodalart/qwen-image-multiple-angles-3d-camera

🔥3👍1

78 views12:08

About

Blog

Apps

Platform