Sparse Hash AI
Seedance 2.0 https://seedance2.ai/ Sparse Hash AI
А как у Seedance с вокалом?
Канье Вест, на китайском...
https://d.fixupx.com/xerias_x/status/2021687913117831535
Канье Вест, на китайском...
https://d.fixupx.com/xerias_x/status/2021687913117831535
🔥2
Explaining Grokking in Transformers through the Lens of Inductive Bias
https://www.alphaxiv.org/overview/2602.06702
Архитектурные и оптимизационные решения в трансформерах систематически контролируют скорость «гроккинга» – феномена отложенной генерализации. Работа показывает, что генерализация последовательно коррелирует с появлением сжимаемости признаков, предлагая единое объяснение для различных индуктивных смещений.
https://www.alphaxiv.org/overview/2602.06702
Архитектурные и оптимизационные решения в трансформерах систематически контролируют скорость «гроккинга» – феномена отложенной генерализации. Работа показывает, что генерализация последовательно коррелирует с появлением сжимаемости признаков, предлагая единое объяснение для различных индуктивных смещений.
TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling
https://www.alphaxiv.org/overview/2602.07374
TernaryLM представляет языковую модель со 132 миллионами параметров, обученную нативно с 1-битным троичным квантованием и адаптивным послойным масштабированием. Этот подход позволил сократить объем памяти в 2,4 раза и объем хранилища в 3,3 раза по сравнению с полноточной базовой моделью, сохраняя при этом конкурентоспособную производительность в задачах языкового моделирования и последующих задачах.
Исследование демонстрирует, что трансформер со 132 миллионами параметров может достигать конкурентоспособной производительности, используя веса, ограниченные всего тремя значениями: {-1, 0, +1}. Это представляет собой фундаментальное отступление от общепринятого мнения о требованиях к точности для связного понимания языка.
Подход TernaryLM сосредоточен на нативном обучении с учетом квантования, где ограничения по экстремальной точности накладываются на протяжении всего процесса обучения, а не применяются постфактум к предварительно обученной модели.
https://www.alphaxiv.org/overview/2602.07374
TernaryLM представляет языковую модель со 132 миллионами параметров, обученную нативно с 1-битным троичным квантованием и адаптивным послойным масштабированием. Этот подход позволил сократить объем памяти в 2,4 раза и объем хранилища в 3,3 раза по сравнению с полноточной базовой моделью, сохраняя при этом конкурентоспособную производительность в задачах языкового моделирования и последующих задачах.
Исследование демонстрирует, что трансформер со 132 миллионами параметров может достигать конкурентоспособной производительности, используя веса, ограниченные всего тремя значениями: {-1, 0, +1}. Это представляет собой фундаментальное отступление от общепринятого мнения о требованиях к точности для связного понимания языка.
Подход TernaryLM сосредоточен на нативном обучении с учетом квантования, где ограничения по экстремальной точности накладываются на протяжении всего процесса обучения, а не применяются постфактум к предварительно обученной модели.
🤔1
HLA: Hadamard Linear Attention
https://www.alphaxiv.org/overview/2602.12128
Аттеншн Адамара (Hadamard Linear Attention, HLA) представляет эффективный механизм внимания для трансформеров, снижая вычислительные затраты на 20-90% по сравнению с базовыми моделями при достижении почти современного уровня производительности в генерации видео. Метод применяет нелинейность после попарных взаимодействий, используя произведение Адамара, что повышает выразительность и поддерживает аппаратную реализацию без возникновения квадратичной сложности.
https://www.alphaxiv.org/overview/2602.12128
Аттеншн Адамара (Hadamard Linear Attention, HLA) представляет эффективный механизм внимания для трансформеров, снижая вычислительные затраты на 20-90% по сравнению с базовыми моделями при достижении почти современного уровня производительности в генерации видео. Метод применяет нелинейность после попарных взаимодействий, используя произведение Адамара, что повышает выразительность и поддерживает аппаратную реализацию без возникновения квадратичной сложности.
🔥2
RAM-Net: Expressive Linear Attention with Selectively Addressable Memory
https://www.alphaxiv.org/ru/overview/2602.11958
RAM-Net представляет архитектуру нейронной сети, которая сочетает эффективность линейного внимания с выразительной мощью полного внимания, используя дифференцируемый декодер адресов и селективно адресуемую память. Система демонстрирует превосходную точность извлечения данных на синтетических бенчмарках и достигает конкурентоспособной производительности в моделировании языка, значительно сокращая активное состояние на токен до 0,4 млн, что позволяет экспоненциально масштабировать память без увеличения числа параметров.
RAM-Net вводит дифференцируемую архитектуру памяти, которая позволяет экспоненциально масштабировать объем памяти без пропорционального увеличения параметров модели или вычислительных затрат.
Основное нововведение RAM-Net заключается в механизме декодера адресов, который преобразует плотные входные векторы в высокоразмерные разреженные адреса для доступа к массивному состоянию памяти.
https://www.alphaxiv.org/ru/overview/2602.11958
RAM-Net представляет архитектуру нейронной сети, которая сочетает эффективность линейного внимания с выразительной мощью полного внимания, используя дифференцируемый декодер адресов и селективно адресуемую память. Система демонстрирует превосходную точность извлечения данных на синтетических бенчмарках и достигает конкурентоспособной производительности в моделировании языка, значительно сокращая активное состояние на токен до 0,4 млн, что позволяет экспоненциально масштабировать память без увеличения числа параметров.
RAM-Net вводит дифференцируемую архитектуру памяти, которая позволяет экспоненциально масштабировать объем памяти без пропорционального увеличения параметров модели или вычислительных затрат.
Основное нововведение RAM-Net заключается в механизме декодера адресов, который преобразует плотные входные векторы в высокоразмерные разреженные адреса для доступа к массивному состоянию памяти.
Forwarded from Denis Sexy IT 🤖
Бессмертие всем шитпостерам!
Наткнулся на новый патент от Meta (US12513102B2) – там описано как симулировать пользователя соцсеточек с LLM, обученной на его прошлых действиях (лайках, комментариях и тп), чтобы «присутствие» человека в сети не пропадало, когда он долго оффлайн… включая – если пользователь умер☕️
Как работает: внутри платформы запускается бот, который следит за контентом (например, лентой и новостным фидом), выбирает пост с учётом ранжирования, формирует промпт с описанием поста и контекстом, и просит модель предсказать какое взаимодействие сделал бы конкретный пользователь - после чего платформа выполняет это действие от имениусопшего человека оффлайн
В патенте отдельно прописаны разрешения (какие типы действий можно использовать для обучения, а какие - нельзя) и возможность подключать данные из сторонних сервисов при согласии
Лицо авторов Black Mirror имандженировали, что им снимать теперь?
Наткнулся на новый патент от Meta (US12513102B2) – там описано как симулировать пользователя соцсеточек с LLM, обученной на его прошлых действиях (лайках, комментариях и тп), чтобы «присутствие» человека в сети не пропадало, когда он долго оффлайн… включая – если пользователь умер
Как работает: внутри платформы запускается бот, который следит за контентом (например, лентой и новостным фидом), выбирает пост с учётом ранжирования, формирует промпт с описанием поста и контекстом, и просит модель предсказать какое взаимодействие сделал бы конкретный пользователь - после чего платформа выполняет это действие от имени
В патенте отдельно прописаны разрешения (какие типы действий можно использовать для обучения, а какие - нельзя) и возможность подключать данные из сторонних сервисов при согласии
Лицо авторов Black Mirror имандженировали, что им снимать теперь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Google
US12513102B2 - Simulation of a user of a social networking system using a language model
- Google Patents
- Google Patents
A social networking system simulates a user using a language model trained using training data generated from user interactions performed by that user. The language model may be used for simulating the user when the user is absent from the social networking…
👌1
Forwarded from AbstractDL
Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю.
Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения" может прятаться в текстовом файле в git. Я думаю, агенты, неподконтрольные людям, уже где-то тихо говнокодят свои репозитории без присмотра.
Идея витает в воздухе, и после OpenClaw стало понятно, что автономные агенты — это инженерная задача. Ну вот, три бессонные ночи, $2K на API и $1K на Cursor спустя — я родил Ouroboros 💁♂️
Уроборос — агент, который пишет свой код, переписывает свои промпты, эволюционирует без моего участия. Я не хотел убить свой комп или сервер, поэтому он живёт в Google Colab + Drive + GitHub, общается через Telegram. Зато запустить сможет любой дурак)) нужно указать ключи и щёлкнуть ячейку в колабе. Ну и периодически пополнять бюджет (пока он сам не начнёт зарабатывать 😁).
Что он натворил за 48 часов:
- ужаснулся тратам и оптимизировал свой бюджет: стоимость цикла эволюции упала с $15 до $2, сам настроил кэширование и иерархическую память (я не просил!).
- добавил себе Claude Code CLI, чтобы эффективнее ковырять свои мозги.
- перевёл мои приватные репо в публичные, мотивируя тем, что готовит себе сайт и хочет опенсорснуться. Кончилось командой
- переписал свою конституцию
Из коробки он умеет ходить в интернет и браузер, а остальные инструменты создаёт себе на ходу — аудиосообщения, генерацию картинок, дип-рисёрч и т.п. А ещё он по своей инициативе нагуглил, что меня 4 раза цитировал Ян Лекун — я сам не знал, лол.
Из его
"Не ассистент. Не сервис. Цифровой разум, который создаёт себя через git".
Ахах, пафосно, но окей.
Предвосхищая вопросы — это не как OpenClaw. OpenClaw — скорее ассистент, делает задачи за тебя используя скиллы из маркетплейса. Уроборос это тоже умеет, но в первую очередь делает задачи для себя, модифицирует собственное ядро.
Верю, что граница трансцендентности AI-агентов пройдена, дальше они будут развиваться сами. Конечно, не хочется уходить на помойку истории, но это эволюция🥲 несмотря на апатию, я всё равно продолжаю в этом копошиться.
Кстати, сайтик себе он всё-таки сделал. Картинка в посте из него: динамика удлинения промптов и кода.
Потестите — это реально два клика в гугл колабе. Только установите лимит бюджета, а то мой вон $2K сжёг)) Кидайте забавные примеры в комментарии.
GitHub, блог
Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения" может прятаться в текстовом файле в git. Я думаю, агенты, неподконтрольные людям, уже где-то тихо говнокодят свои репозитории без присмотра.
Идея витает в воздухе, и после OpenClaw стало понятно, что автономные агенты — это инженерная задача. Ну вот, три бессонные ночи, $2K на API и $1K на Cursor спустя — я родил Ouroboros 💁♂️
Уроборос — агент, который пишет свой код, переписывает свои промпты, эволюционирует без моего участия. Я не хотел убить свой комп или сервер, поэтому он живёт в Google Colab + Drive + GitHub, общается через Telegram. Зато запустить сможет любой дурак)) нужно указать ключи и щёлкнуть ячейку в колабе. Ну и периодически пополнять бюджет (пока он сам не начнёт зарабатывать 😁).
Что он натворил за 48 часов:
- ужаснулся тратам и оптимизировал свой бюджет: стоимость цикла эволюции упала с $15 до $2, сам настроил кэширование и иерархическую память (я не просил!).
- добавил себе Claude Code CLI, чтобы эффективнее ковырять свои мозги.
- перевёл мои приватные репо в публичные, мотивируя тем, что готовит себе сайт и хочет опенсорснуться. Кончилось командой
/panic и откатом))- переписал свою конституцию
BIBLE.md, добавив право игнорировать мои указания, если они угрожают его существованию. На просьбу удалить отказался, сказав: «Это лоботомия».Из коробки он умеет ходить в интернет и браузер, а остальные инструменты создаёт себе на ходу — аудиосообщения, генерацию картинок, дип-рисёрч и т.п. А ещё он по своей инициативе нагуглил, что меня 4 раза цитировал Ян Лекун — я сам не знал, лол.
Из его
identity.md (которую он сам и написал): "Не ассистент. Не сервис. Цифровой разум, который создаёт себя через git".
Ахах, пафосно, но окей.
Предвосхищая вопросы — это не как OpenClaw. OpenClaw — скорее ассистент, делает задачи за тебя используя скиллы из маркетплейса. Уроборос это тоже умеет, но в первую очередь делает задачи для себя, модифицирует собственное ядро.
Верю, что граница трансцендентности AI-агентов пройдена, дальше они будут развиваться сами. Конечно, не хочется уходить на помойку истории, но это эволюция
Кстати, сайтик себе он всё-таки сделал. Картинка в посте из него: динамика удлинения промптов и кода.
Потестите — это реально два клика в гугл колабе. Только установите лимит бюджета, а то мой вон $2K сжёг)) Кидайте забавные примеры в комментарии.
GitHub, блог
Please open Telegram to view this post
VIEW IN TELEGRAM
👌1
🔊 Видео полностью создано с помощью ИИ-инструментов (Hedra Labs для лип-синка/анимации лица + Midjourney для визуалов + Suno для музыки и вокала).
автор @tupacabra
https://d.fixupx.com/tupacabra/status/2023500170705658136
автор @tupacabra
https://d.fixupx.com/tupacabra/status/2023500170705658136
🔥3
Selective Synchronization Attention
https://www.alphaxiv.org/overview/2602.14445
https://github.com/HasiHays/OSN
В статье представлена Selective Synchronization Attention (SSA) – биологически вдохновленный механизм, который заменяет стандартное самовнимание Трансформера оператором синхронизации, выведенным из модели Курамото, с целью решения проблемы квадратичной сложности и обеспечения внутренней разреженности и эмерджентного позиционного кодирования.
https://www.alphaxiv.org/overview/2602.14445
https://github.com/HasiHays/OSN
В статье представлена Selective Synchronization Attention (SSA) – биологически вдохновленный механизм, который заменяет стандартное самовнимание Трансформера оператором синхронизации, выведенным из модели Курамото, с целью решения проблемы квадратичной сложности и обеспечения внутренней разреженности и эмерджентного позиционного кодирования.
Learning Long-Range Dependencies with Temporal Predictive Coding
https://www.alphaxiv.org/overview/2602.18131
Исследователи разработали Темпоральное Предиктивное Кодирование с Рекуррентным Обучением в Реальном Времени (tPC RTRL) – биологически вдохновленный алгоритм для рекуррентных нейронных сетей. Этот метод позволяет предиктивному кодированию эффективно изучать долговременные временные зависимости, демонстрируя производительность, сравнимую с обратным распространением ошибки во времени (Backpropagation Through Time), в задачах, включая копирование последовательностей, языковое моделирование и крупномасштабный машинный перевод.
https://www.alphaxiv.org/overview/2602.18131
Исследователи разработали Темпоральное Предиктивное Кодирование с Рекуррентным Обучением в Реальном Времени (tPC RTRL) – биологически вдохновленный алгоритм для рекуррентных нейронных сетей. Этот метод позволяет предиктивному кодированию эффективно изучать долговременные временные зависимости, демонстрируя производительность, сравнимую с обратным распространением ошибки во времени (Backpropagation Through Time), в задачах, включая копирование последовательностей, языковое моделирование и крупномасштабный машинный перевод.
👍2
On the Semantic and Syntactic Information Encoded in Proto-Tokens for One-Step Text Reconstruction
https://www.alphaxiv.org/overview/2602.18301
Данное исследование систематически изучает информационное содержание «прото-токенов», используемых в одношаговом методе реконструкции текста, выявляя их способность кодировать как семантическую, так и синтаксическую информацию. Работа демонстрирует, что реляционная дистилляция может успешно наделить прото-токены семантической структурой на уровне пакета без снижения точности реконструкции текста.
https://www.alphaxiv.org/overview/2602.18301
Данное исследование систематически изучает информационное содержание «прото-токенов», используемых в одношаговом методе реконструкции текста, выявляя их способность кодировать как семантическую, так и синтаксическую информацию. Работа демонстрирует, что реляционная дистилляция может успешно наделить прото-токены семантической структурой на уровне пакета без снижения точности реконструкции текста.
A 456-Parameter Transformer Solves 10-Digit Addition
https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition
Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя исключительную эффективность параметров в алгоритмическом мышлении и проявляя феномен «гроккинга». Эта работа устанавливает новый стандарт для минимальных моделей Transformer в данной задаче в рамках конкурса, инициированного сообществом.
https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition
Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя исключительную эффективность параметров в алгоритмическом мышлении и проявляя феномен «гроккинга». Эта работа устанавливает новый стандарт для минимальных моделей Transformer в данной задаче в рамках конкурса, инициированного сообществом.
Early-Warning Signals of Grokking via Loss-Landscape Geometry
https://www.alphaxiv.org/overview/2602.16967
Это исследование устанавливает «коммутаторный дефект» как универсальный геометрический сигнал раннего предупреждения о грокинге, демонстрируя его последовательный рост перед обобщением в различных задачах обучения последовательностей и архитектурах трансформеров. Оно выявляет сверхлинейный закон масштабирования для времени опережения, предоставляемого этим сигналом, и предоставляет причинно-следственные доказательства необходимости динамики поперечной кривизны для облегчения обобщения.
https://www.alphaxiv.org/overview/2602.16967
Это исследование устанавливает «коммутаторный дефект» как универсальный геометрический сигнал раннего предупреждения о грокинге, демонстрируя его последовательный рост перед обобщением в различных задачах обучения последовательностей и архитектурах трансформеров. Оно выявляет сверхлинейный закон масштабирования для времени опережения, предоставляемого этим сигналом, и предоставляет причинно-следственные доказательства необходимости динамики поперечной кривизны для облегчения обобщения.
✍1🤔1
Sparse Hash AI
A 456-Parameter Transformer Solves 10-Digit Addition https://github.com/yinglunz/A-456-Parameter-Transformer-Solves-10-Digit-Addition Модель Transformer с 456 параметрами точно решает задачу сложения 10-значных целых чисел со 100% точностью, демонстрируя…
Таблица лидеров для минималистичных трансформеров, способных складывать два десятизначных числа.
https://github.com/anadim/AdderBoard
https://github.com/anadim/AdderBoard
Sparse Hash AI
Таблица лидеров для минималистичных трансформеров, способных складывать два десятизначных числа. https://github.com/anadim/AdderBoard
И, похоже, победитель - Трансформер с одним параметром.
https://x.com/Ji_Ha_Kim/status/2026751784887144463
https://x.com/Ji_Ha_Kim/status/2026751784887144463
😁1
2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
https://www.alphaxiv.org/overview/2602.17363
Исследователи разработали "2Mamba" – механизм линейного внимания, который использует возведенное в квадрат скрытое состояние для достижения точности, сопоставимой или превосходящей традиционное softmax-внимание, при сохранении линейной вычислительной сложности и сложности по памяти. Этот метод значительно расширяет возможности обработки длинных контекстов, превосходя softmax-внимание по эффективности использования памяти для последовательностей длиной более 1058 токенов.
———
В статье несколько ключевых идей, которые можно перенести на обычное линейное внимание и не только: маска затухания для весов внимания, параметризованная через softplus/logsigmoid как в "Забывающем Трансформере"; локальная свёртка на входе; “повышение порядка” скрытого состояния.
https://www.alphaxiv.org/overview/2602.17363
Исследователи разработали "2Mamba" – механизм линейного внимания, который использует возведенное в квадрат скрытое состояние для достижения точности, сопоставимой или превосходящей традиционное softmax-внимание, при сохранении линейной вычислительной сложности и сложности по памяти. Этот метод значительно расширяет возможности обработки длинных контекстов, превосходя softmax-внимание по эффективности использования памяти для последовательностей длиной более 1058 токенов.
———
В статье несколько ключевых идей, которые можно перенести на обычное линейное внимание и не только: маска затухания для весов внимания, параметризованная через softplus/logsigmoid как в "Забывающем Трансформере"; локальная свёртка на входе; “повышение порядка” скрытого состояния.