Краткость — сестра
Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы, что даёт точный, целенаправленный сигнал о том, какие части структуры модели вредны и должны быть подвергнуты прунингу. И для этого достаточно 100 размеченных примеров. Magic.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1127
Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы, что даёт точный, целенаправленный сигнал о том, какие части структуры модели вредны и должны быть подвергнуты прунингу. И для этого достаточно 100 размеченных примеров. Magic.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1127
Telegram
gonzo_ML_podcasts
Адаптация LLM за минуты: нужен всего один шаг градиентного спуска
Title: Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples
Authors: Shiva Sreeram, Alaa Maalouf, Pratyusha Sharma, Daniela Rus
Paper: https://arxiv.o…
Title: Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples
Authors: Shiva Sreeram, Alaa Maalouf, Pratyusha Sharma, Daniela Rus
Paper: https://arxiv.o…
👍5🔥4❤2🤔1
Extropic анонсировал своё новое железо
http://extropic.ai/writing/inside-x0-and-xtr-0
Мы писали про эту и другие интересные темы тут
http://extropic.ai/writing/inside-x0-and-xtr-0
Мы писали про эту и другие интересные темы тут
Extropic
Inside X0 and XTR-0 | Extropic
Building thermodynamic computing hardware that is radically more energy efficient than GPUs.
🔥13🤡3
Не про архиваторы.
Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).
Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1136
Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).
Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1136
Telegram
gonzo_ML_podcasts
За гранью непрерывных оценок: как бинарное вознаграждение борется с галлюцинациями LLM, не жертвуя навыками
Title: Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations
Authors: Tong Chen, Akari Asai, Luke Zettlemoyer…
Title: Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations
Authors: Tong Chen, Akari Asai, Luke Zettlemoyer…
🔥11👍4😁2🫡2🤔1
Продолжается развитие интересной линейки Dreamer, моделей, способных обучаться "в воображении", внутри выученной модели мира. Мы упоминали эти модели неоднократно (https://news.1rj.ru/str/gonzo_ML/1791), и вообще World Models — одна из моих любимых тем (https://news.1rj.ru/str/gonzo_ML/3176).
Текущая версия Dreamer 4 обучила world model на (не самой большой) куче видео, а затем внутри модели мира выучила полиси и сумела накрафтить алмаз в майнкрафте. Скор небольшой, всего 0.7% успеха, но у VPT и VLA там вообще ноль, хотя данных в обучении в сто раз больше.
В общем любопытная движуха.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1150
Текущая версия Dreamer 4 обучила world model на (не самой большой) куче видео, а затем внутри модели мира выучила полиси и сумела накрафтить алмаз в майнкрафте. Скор небольшой, всего 0.7% успеха, но у VPT и VLA там вообще ноль, хотя данных в обучении в сто раз больше.
В общем любопытная движуха.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1150
Telegram
gonzo-обзоры ML статей
Learning to Model the World with Language
Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
Статья: https://arxiv.org/abs/2308.01399
Сайт: https://dynalang.github.io/
Интересная работа из серии про World Models.…
Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
Статья: https://arxiv.org/abs/2308.01399
Сайт: https://dynalang.github.io/
Интересная работа из серии про World Models.…
👍14❤4🔥4
Графовый LSTM подвезли, gLSTM.
Что сделано?
В статье пересматривается проблема "over-squashing" в графовых нейронных сетях (GNN), разделяя её на два различных режима отказа: низкую чувствительность (сбой распространения сигнала) и насыщение ёмкости хранения (информационное узкое место). Для решения второй проблемы авторы представляют gLSTM — новую архитектуру GNN, вдохновлённую моделью для последовательностей xLSTM. gLSTM дополняет представление каждого узла ассоциативной памятью (матричным скрытым состоянием), чтобы явно увеличить его возможности по хранению и извлечению информации. Они также предлагают новую синтетическую задачу, Neighbor Associative Recall (NAR), специально разработанную для выделения и измерения этого ограничения ёмкости в условиях неглубокого графа, что позволяет избежать мешающих факторов, связанных с глубокими архитектурами.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1170
Что сделано?
В статье пересматривается проблема "over-squashing" в графовых нейронных сетях (GNN), разделяя её на два различных режима отказа: низкую чувствительность (сбой распространения сигнала) и насыщение ёмкости хранения (информационное узкое место). Для решения второй проблемы авторы представляют gLSTM — новую архитектуру GNN, вдохновлённую моделью для последовательностей xLSTM. gLSTM дополняет представление каждого узла ассоциативной памятью (матричным скрытым состоянием), чтобы явно увеличить его возможности по хранению и извлечению информации. Они также предлагают новую синтетическую задачу, Neighbor Associative Recall (NAR), специально разработанную для выделения и измерения этого ограничения ёмкости в условиях неглубокого графа, что позволяет избежать мешающих факторов, связанных с глубокими архитектурами.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1170
Telegram
gonzo_ML_podcasts
Не сигналом единым: gLSTM борется с over-squashing в GNN, наращивая память
Title: gLSTM: Mitigating Over-Squashing by Increasing Storage Capacity
Authors: Hugh Blayney, Álvaro Arroyo, Xiaowen Dong, Michael M. Bronstein
Paper: https://arxiv.org/abs/2510.08450…
Title: gLSTM: Mitigating Over-Squashing by Increasing Storage Capacity
Authors: Hugh Blayney, Álvaro Arroyo, Xiaowen Dong, Michael M. Bronstein
Paper: https://arxiv.org/abs/2510.08450…
❤8👍6🤔4
The Principles of Diffusion Models: From Origins to Advances
Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
Статья: https://arxiv.org/abs/2510.21890
Ревью: https://arxiviq.substack.com/p/the-principles-of-diffusion-models
Эта 470-страничная монография представляет единую теоретическую основу для диффузионных моделей. Она показывает, что три исторически разных подхода — вариационный (например, DDPM), основанный на score-функции (например, Score SDE) и потоковый (например, Flow Matching) — математически эквивалентны. Все они сводятся к одному ключевому принципу: выучиванию зависящего от времени векторного поля для обращения фиксированного прямого процесса зашумления. Авторы показывают, что весь этот генеративный процесс управляется одним дифференциальным уравнением (Probability Flow ODE), а его согласованность гарантируется уравнением Фоккера-Планка. В работе также доказывается, что различные цели для предсказания, используемые при обучении (шум, чистые данные, score-функция или скорость), алгебраически взаимозаменяемы. Это проясняет, что их различия — вопрос реализации и стабильности, а не фундаментальных возможностей моделирования.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1181
Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
Статья: https://arxiv.org/abs/2510.21890
Ревью: https://arxiviq.substack.com/p/the-principles-of-diffusion-models
Эта 470-страничная монография представляет единую теоретическую основу для диффузионных моделей. Она показывает, что три исторически разных подхода — вариационный (например, DDPM), основанный на score-функции (например, Score SDE) и потоковый (например, Flow Matching) — математически эквивалентны. Все они сводятся к одному ключевому принципу: выучиванию зависящего от времени векторного поля для обращения фиксированного прямого процесса зашумления. Авторы показывают, что весь этот генеративный процесс управляется одним дифференциальным уравнением (Probability Flow ODE), а его согласованность гарантируется уравнением Фоккера-Планка. В работе также доказывается, что различные цели для предсказания, используемые при обучении (шум, чистые данные, score-функция или скорость), алгебраически взаимозаменяемы. Это проясняет, что их различия — вопрос реализации и стабильности, а не фундаментальных возможностей моделирования.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1181
arXiv.org
The Principles of Diffusion Models
This monograph presents the core principles that have guided the development of diffusion models, tracing their origins and showing how diverse formulations arise from shared mathematical ideas....
🔥42👍4❤2
Kimi Linear: An Expressive, Efficient Attention Architecture
https://arxiv.org/abs/2510.26692
Новинка в линейке Kimi, SSM-Трансформер гибрид с линейным вниманием, который наконец бьёт традиционные бейзлайны с полным вниманием. Наверное, достойно самостоятельного разбора (как и Mamba 3 в очереди), но пока нет времени, так что пусть хотя бы так.
Развивает идеи из Gated Delta Networks (тут в слайдах было), отдельно спасибо авторам за таблицы со сравнением разных механизмов внимания на уровне рекуррентных и параллельных формул, objectives и update rule.
Обучена оптимизатором MuonClip от Kimi K2 (https://arxiv.org/abs/2507.20534). Кто-то всё-таки успешно использует Muon в продакшне. Что интересно, MuonClip был сделан для борьбы с нестабильностью во время обучения, видимо частая проблема. Я пока в своих экспериментах тоже не могу добиться должной стабильности с обычным Muon'ом. Поделитесь опытом, кто сумел.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1196
https://arxiv.org/abs/2510.26692
Новинка в линейке Kimi, SSM-Трансформер гибрид с линейным вниманием, который наконец бьёт традиционные бейзлайны с полным вниманием. Наверное, достойно самостоятельного разбора (как и Mamba 3 в очереди), но пока нет времени, так что пусть хотя бы так.
Развивает идеи из Gated Delta Networks (тут в слайдах было), отдельно спасибо авторам за таблицы со сравнением разных механизмов внимания на уровне рекуррентных и параллельных формул, objectives и update rule.
Обучена оптимизатором MuonClip от Kimi K2 (https://arxiv.org/abs/2507.20534). Кто-то всё-таки успешно использует Muon в продакшне. Что интересно, MuonClip был сделан для борьбы с нестабильностью во время обучения, видимо частая проблема. Я пока в своих экспериментах тоже не могу добиться должной стабильности с обычным Muon'ом. Поделитесь опытом, кто сумел.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1196
arXiv.org
Kimi Linear: An Expressive, Efficient Attention Architecture
We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context,...
❤13👍6🔥5
Продолжаем серию обзорных работ по большой области. После обзора диффузионок приехал обзор по KAN. Этот поскромнее, всего 63 страницы.
Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781
Главный вклад работы — это смещение фокуса на выбор базиса как на ключевой аспект проектирования KAN. Выбор базисной функции — это не второстепенная деталь реализации, а основной механизм для введения inductive bias, определяющий такие свойства сети, как гладкость, локальность и спектральное поведение.
Обзор также предлагает практические советы в руководстве «Выбери свой KAN». Этот практический фреймворк сопоставляет характеристики задач с рекомендуемыми вариантами KAN, выбором базиса и конфигурациями обучения.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1213
Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781
Главный вклад работы — это смещение фокуса на выбор базиса как на ключевой аспект проектирования KAN. Выбор базисной функции — это не второстепенная деталь реализации, а основной механизм для введения inductive bias, определяющий такие свойства сети, как гладкость, локальность и спектральное поведение.
Обзор также предлагает практические советы в руководстве «Выбери свой KAN». Этот практический фреймворк сопоставляет характеристики задач с рекомендуемыми вариантами KAN, выбором базиса и конфигурациями обучения.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1213
Telegram
gonzo_ML_podcasts
За гранью хайпа: практическое руководство по сетям Колмогорова-Арнольда
Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781
Ревью: https://arxiviq.substack.com/p/a…
Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781
Ревью: https://arxiviq.substack.com/p/a…
👍7❤3🤮2🔥1
Обзор трансформеров с памятью.
Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures
Authors: Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi
Paper: https://arxiv.org/abs/2508.10824
В этой статье представлен систематический обзор, который закладывает комплексную междисциплинарную основу для дополненных памятью трансформеров (Memory-Augmented Transformers, MATs). Он связывает фундаментальные принципы нейронаук — такие как динамическая память с разными временными масштабами, избирательное внимание и консолидация — с последними инженерными достижениями. Авторы вводят новую многомерную таксономию, которая организует область по трём основным осям: функциональные цели (например, расширение контекста, рассуждения), типы памяти (закодированная в параметрах, на основе состояний, явная и гибридная) и техники интеграции (например, слияние на основе внимания, управляющие гейт-механизмы). В обзоре тщательно анализируется эволюция основных операций с памятью, показывая чёткую траекторию от статических механизмов кэширования к динамическим, самоуправляемым системам.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1233
Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures
Authors: Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi
Paper: https://arxiv.org/abs/2508.10824
В этой статье представлен систематический обзор, который закладывает комплексную междисциплинарную основу для дополненных памятью трансформеров (Memory-Augmented Transformers, MATs). Он связывает фундаментальные принципы нейронаук — такие как динамическая память с разными временными масштабами, избирательное внимание и консолидация — с последними инженерными достижениями. Авторы вводят новую многомерную таксономию, которая организует область по трём основным осям: функциональные цели (например, расширение контекста, рассуждения), типы памяти (закодированная в параметрах, на основе состояний, явная и гибридная) и техники интеграции (например, слияние на основе внимания, управляющие гейт-механизмы). В обзоре тщательно анализируется эволюция основных операций с памятью, показывая чёткую траекторию от статических механизмов кэширования к динамическим, самоуправляемым системам.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1233
arXiv.org
Memory-Augmented Transformers: A Systematic Review from...
Memory is fundamental to intelligence, enabling learning, reasoning, and adaptability across biological and artificial systems. While Transformer architectures excel at sequence modeling, they...
👍14❤2
Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI) про предпочтения разработчиками открытых моделей
👍18🤷♀7