Convergence for Discrete Parameter Updates
https://www.alphaxiv.org/ru/overview/2512.04051
https://github.com/hellas-ai/neurips2025-convergence-for-discrete-parameter-updates
Существующие подходы к квантованному обучению вычисляют обновления, используя непрерывную (с плавающей запятой) арифметику, а затем дискретизируют эти обновления с помощью функций квантования.
В данной работе предлагается фундаментальное изменение парадигмы путем введения схем дискретного обновления параметров, где правило обновления само по себе изначально является целочисленным, полностью обходя необходимость квантования непрерывных значений.
Обновление основано на мультиномиальном распределении с избытком нулей (Zero-Inflated Multinomial — ZIM).
Результаты показывают, что:
⦁ Дискретные обновления успешно сходятся к решениям, сравнимым со стандартным SGD
⦁ Метод работает «из коробки» с существующими архитектурами
⦁ Наблюдается скромное снижение точности на 0.5-1%, что соответствует теоретическому уровню шума
Sparse Hash AI
https://www.alphaxiv.org/ru/overview/2512.04051
https://github.com/hellas-ai/neurips2025-convergence-for-discrete-parameter-updates
Существующие подходы к квантованному обучению вычисляют обновления, используя непрерывную (с плавающей запятой) арифметику, а затем дискретизируют эти обновления с помощью функций квантования.
В данной работе предлагается фундаментальное изменение парадигмы путем введения схем дискретного обновления параметров, где правило обновления само по себе изначально является целочисленным, полностью обходя необходимость квантования непрерывных значений.
Обновление основано на мультиномиальном распределении с избытком нулей (Zero-Inflated Multinomial — ZIM).
Результаты показывают, что:
⦁ Дискретные обновления успешно сходятся к решениям, сравнимым со стандартным SGD
⦁ Метод работает «из коробки» с существующими архитектурами
⦁ Наблюдается скромное снижение точности на 0.5-1%, что соответствует теоретическому уровню шума
Sparse Hash AI
The Universal Weight Subspace Hypothesis
https://www.alphaxiv.org/ru/overview/2512.05117
В данной работе представлена гипотеза универсального весового подпространства, эмпирически демонстрирующая, что глубокие нейронные сети, обученные для выполнения различных задач и с использованием различных модальностей, сходятся к общим низкоразмерным параметрическим подпространствам. Это схождение позволяет значительно экономить память, например, до 100 раз для Vision Transformers и моделей LLaMA, и в 19 раз для адаптеров LoRA.
Гипотеза утверждает, что глубокие нейронные сети, независимо от их задач обучения, схем инициализации или конфигураций гиперпараметров, систематически сходятся к общим, низкоразмерным параметрическим подпространствам. Эта «Гипотеза универсального весового подпространства» предполагает, что кажущееся высокоразмерное пространство параметров нейронных сетей по большей части иллюзорно — значимая информация находится в гораздо меньшем, специфичном для архитектуры подпространстве.
Sparse Hash AI
https://www.alphaxiv.org/ru/overview/2512.05117
В данной работе представлена гипотеза универсального весового подпространства, эмпирически демонстрирующая, что глубокие нейронные сети, обученные для выполнения различных задач и с использованием различных модальностей, сходятся к общим низкоразмерным параметрическим подпространствам. Это схождение позволяет значительно экономить память, например, до 100 раз для Vision Transformers и моделей LLaMA, и в 19 раз для адаптеров LoRA.
Гипотеза утверждает, что глубокие нейронные сети, независимо от их задач обучения, схем инициализации или конфигураций гиперпараметров, систематически сходятся к общим, низкоразмерным параметрическим подпространствам. Эта «Гипотеза универсального весового подпространства» предполагает, что кажущееся высокоразмерное пространство параметров нейронных сетей по большей части иллюзорно — значимая информация находится в гораздо меньшем, специфичном для архитектуры подпространстве.
Sparse Hash AI
👍1
Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers
https://arxiv.org/abs/2511.13945
Исследование, показывающее, что предобучение Vision Transformers на символических последовательностях (например, сбалансированных скобках) без изображений повышает эффективность последующего обучения на ImageNet, делая модели более экономными по данным.
анонс
Sparse Hash AI
https://arxiv.org/abs/2511.13945
Исследование, показывающее, что предобучение Vision Transformers на символических последовательностях (например, сбалансированных скобках) без изображений повышает эффективность последующего обучения на ImageNet, делая модели более экономными по данным.
анонс
Sparse Hash AI
🧵 Thread • FixupX
Damien Teney (@DamienTeney)
Can vision transformers learn without images?🤔👀
Our latest work shows that pretraining ViTs on procedural symbolic data (eg sequences of balanced parentheses) makes subsequent standard training (eg on ImageNet) more data efficient! How is this possible?!…
Our latest work shows that pretraining ViTs on procedural symbolic data (eg sequences of balanced parentheses) makes subsequent standard training (eg on ImageNet) more data efficient! How is this possible?!…
Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs
https://alignment.anthropic.com/2025/selective-gradient-masking/
Новое исследование компании Anthropic – Selective GradienT Masking (SGTM) – обучает модель LLM таким образом, чтобы опасные знания упаковывались в небольшой набор весов, которые впоследствии можно удалить с минимальным ущербом для остальной части модели.
SGTM изменяет процесс обучения, разделяя веса каждого слоя на часть, отвечающую за сохранение, и часть, отвечающую за забывание, где часть, отвечающая за забывание, предназначена для хранения знаний о рисках.
Когда модель видит четко обозначенный рискованный текст, обновления градиента получают только веса забывания, поэтому модель учится полагаться на этот фрагмент для понимания этих концепций.
SGTM превосходит фильтрацию данных по соотношению удаления рискованного контента и сохранения полезных навыков, требуя всего на 5% больше вычислений, и устойчиво к попыткам переобучения.
Sparse Hash AI
https://alignment.anthropic.com/2025/selective-gradient-masking/
Новое исследование компании Anthropic – Selective GradienT Masking (SGTM) – обучает модель LLM таким образом, чтобы опасные знания упаковывались в небольшой набор весов, которые впоследствии можно удалить с минимальным ущербом для остальной части модели.
SGTM изменяет процесс обучения, разделяя веса каждого слоя на часть, отвечающую за сохранение, и часть, отвечающую за забывание, где часть, отвечающая за забывание, предназначена для хранения знаний о рисках.
Когда модель видит четко обозначенный рискованный текст, обновления градиента получают только веса забывания, поэтому модель учится полагаться на этот фрагмент для понимания этих концепций.
SGTM превосходит фильтрацию данных по соотношению удаления рискованного контента и сохранения полезных навыков, требуя всего на 5% больше вычислений, и устойчиво к попыткам переобучения.
Sparse Hash AI
👍2
Sparse Hash AI
Не стал вчера сразу публиковать виральное, но спорное видео. Выглядит как девушка в костюме робота, в Китае такое легко прокатывает на выставках. Но появилось продолжение с "разоблачением" в стиле терминатора. Sparse Hash AI
This media is not supported in your browser
VIEW IN TELEGRAM
Xpeng IRON
Видео не с официального аккаунта, но в прошлый раз тоже был "левый вброс" для разогрева, и тоже казалось сомнительным, но оказалось правдой. Грок говорит - не генерация.
Sparse Hash AI
Видео не с официального аккаунта, но в прошлый раз тоже был "левый вброс" для разогрева, и тоже казалось сомнительным, но оказалось правдой. Грок говорит - не генерация.
Sparse Hash AI
Видео от Disney Research, демонстрирующее робота Олафа из "Холодного сердца": его внутреннюю конструкцию, цикл ходьбы, снижение ударов и отслеживание производительности, что подчеркивает прогресс в аниматронике для тематических парков.
Olaf: Bringing an Animated Character to Life in the Physical World
https://www.alphaxiv.org/ru/overview/2512.16705
Sparse Hash AI
Olaf: Bringing an Animated Character to Life in the Physical World
https://www.alphaxiv.org/ru/overview/2512.16705
Sparse Hash AI
Multiscale Aggregated Hierarchical Attention (MAHA): A Game Theoretic and Optimization Driven Approach to Efficient Contextual Modeling in Large Language Models
https://www.alphaxiv.org/overview/2512.14925
https://github.com/canererden/MAHA-Project
MAHA представляет иерархическую архитектуру внимания для больших языковых моделей, которая решает проблему квадратичной вычислительной сложности стандартного самовнимания путем декомпозиции входных последовательностей на несколько масштабов и использования выпуклой оптимизации или теории игр для агрегации. Архитектура позволила сократить количество операций FLOP на 81% и потребление памяти на 56% по сравнению со стандартным MHA, сохраняя при этом конкурентоспособную производительность и демонстрируя превосходные возможности в моделировании дальних зависимостей.
Sparse Hash AI
https://www.alphaxiv.org/overview/2512.14925
https://github.com/canererden/MAHA-Project
MAHA представляет иерархическую архитектуру внимания для больших языковых моделей, которая решает проблему квадратичной вычислительной сложности стандартного самовнимания путем декомпозиции входных последовательностей на несколько масштабов и использования выпуклой оптимизации или теории игр для агрегации. Архитектура позволила сократить количество операций FLOP на 81% и потребление памяти на 56% по сравнению со стандартным MHA, сохраняя при этом конкурентоспособную производительность и демонстрируя превосходные возможности в моделировании дальних зависимостей.
Sparse Hash AI
👍1
Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings
https://www.alphaxiv.org/overview/2509.10534
Исследователи представляют позиционное вложение в полярных координатах (Polar Coordinate Positional Embedding, PoPE) — метод, который разделяет информацию о содержании и позиционную информацию в трансформерах, переформулируя позиционное кодирование в полярных координатах. PoPE последовательно достигает более низкой перплексии и более высокой точности без предварительной настройки (zero-shot accuracy), чем Rotary Position Embedding (RoPE) в задачах обработки языка, музыки и геномики, а также демонстрирует превосходную экстраполяцию длины без предварительной настройки для последовательностей в 10 раз длиннее обучающих данных.
Sparse Hash AI
https://www.alphaxiv.org/overview/2509.10534
Исследователи представляют позиционное вложение в полярных координатах (Polar Coordinate Positional Embedding, PoPE) — метод, который разделяет информацию о содержании и позиционную информацию в трансформерах, переформулируя позиционное кодирование в полярных координатах. PoPE последовательно достигает более низкой перплексии и более высокой точности без предварительной настройки (zero-shot accuracy), чем Rotary Position Embedding (RoPE) в задачах обработки языка, музыки и геномики, а также демонстрирует превосходную экстраполяцию длины без предварительной настройки для последовательностей в 10 раз длиннее обучающих данных.
Sparse Hash AI