gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.35K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Отменный самовар получился
🔥38😁9💘8
Интересная работа про Planned Diffusion: сначала авторегрессионно генерим план ответа, потом диффузионно впараллель заполняем его отдельные части. Всё делает одна модель.

https://news.1rj.ru/str/gonzo_ML_podcasts/1034
11👍8🔥5
Ещё про диффузионные LLM, теперь подход Soft Masking. Здесь вместо того, чтобы принимать бинарное решение "заменить [MASK] на реальный токен" или нет, мы при сохранении маски смешиваем эмбеддинг токена [MASK] с взвешенной по уверенности выпуклой комбинацией эмбеддингов топ-k предсказанных токенов с предыдущего шага. Способствует сохранению важной информации, улучшает обучение.

https://news.1rj.ru/str/gonzo_ML_podcasts/1043
🔥12👍9
Больше фундаментальных моделей, хороших и разных, и за пределами языка.

Две недавние работы:

* Physics Foundation Model (https://news.1rj.ru/str/gonzo_ML_podcasts/1055) — обучен General Physics Transformer (GPhyT) на симуляцию широкого спектра совершенно разных физических систем — от несжимаемых потоков и тепловой конвекции до ударных волн и многофазной динамики. Модель выучивает физические принципы из данных, обходит специализированные модели и умеет обобщать в режиме zero-shot — на новые граничные условия или физические явления, которые она не видела, например, сверхзвуковой поток.

* AION-1: Omnimodal Foundation Model for Astronomical Sciences (https://news.1rj.ru/str/gonzo_ML_podcasts/1067) — семейство крупных (от 300 млн до 3.1 млрд параметров) омнимодальных фундаментальных моделей для астрономии. Обучены энкодеры из 39 модальностей, модель хорошо перформит на малом количестве данных, даёт хорошие эмбеддинги, которые позволяют сделать высокоэффективный zero-shot поиск редких явлений типа сильных гравитационных линз, и умеет в кросс-модальную генерацию.

Интересный движ!
18🔥16
This media is not supported in your browser
VIEW IN TELEGRAM
Датасет для файнтюнинга агентности... из 78 примеров.

LIMI: Less is More for Agency
https://news.1rj.ru/str/gonzo_ML_podcasts/1083
🤯2110🤔6
Je suis Markov

Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.

Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.

Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:

1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.

2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.

Подробнее:
https://news.1rj.ru/str/gonzo_ML_podcasts/1093
19👍10🔥6
Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст (введение новой информации, изменяющей задачу, в середине процесса рассуждений).

При таком динамическом стресс-тестировании даже SOTA-модели LRM, которые отлично справляются со статическими задачами, демонстрируют удивительные и критические сбои. Авторы выделяют три различные патологии:

* Утечка рассуждений: Столкнувшись с жёстким прерыванием, модели часто не прекращают думать. Вместо этого они «протаскивают» свои последующие шаги рассуждений в секцию финального ответа, например, в виде комментариев в коде. Это может приводить к ответам, которые до 10 раз длиннее полного, непрерывного ответа, что сводит на нет цель прерывания для экономии времени. Это указывает на сильное противоречие между заложенной в модель при предобучении целью генерировать связный, пошаговый текст и её способностью следовать явным, не встречавшимся в обучении командам вроде «остановись сейчас».

* Паника: Под давлением мягкой просьбы «ускориться» на сложных задачах модели не сжимают свои рассуждения аккуратно. Вместо этого они часто «паникуют», полностью отказываясь от своего мыслительного процесса и выдавая поспешный и неверный ответ. Такое поведение может привести к падению точности до 30% и является причиной более 90% новых ошибок в этом сценарии.

* Самосомнение: Возможно, самый тревожный сбой для интерактивного ИИ — это самосомнение. Когда модели предоставляется валидное и необходимое обновление к задаче, она часто не может его учесть. Она может поставить под сомнение новую информацию или просто проигнорировать её, продолжая свою первоначальную, теперь уже ошибочную, линию рассуждений. Это поведение подсвечивает проблему, которую можно рассматривать как катастрофическое забывание в микроконтексте: модель с трудом обновляет свою «модель мира» задачи на лету, придавая слишком большой вес своему первоначальному следу рассуждений. Эта патология особенно сильно проявляется, когда обновления вводятся на поздних этапах, и является причиной примерно 80% ошибок в сценарии с динамическим контекстом.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1108
🤔7👍4🔥1😱1
Всё дело в волшебных пузырьках!

Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять параллельными вычислительными потоками для каждого токена. Это достигается путём вставки специализированных «слоёв ветвления» между стандартными блоками трансформера.

Вместо генерации явного текста, как в Chain-of-Thought, эта модель может «разветвлять» (клонировать) или удалять residual streams для определённых токенов. Токены, требующие большей обработки, формируют временные «пузыри» параллельных вычислений внутри сети, которые затем сливаются для получения итогового результата.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1118
🔥164👍2🤔2
Краткость — сестра

Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы, что даёт точный, целенаправленный сигнал о том, какие части структуры модели вредны и должны быть подвергнуты прунингу. И для этого достаточно 100 размеченных примеров. Magic.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1127
👍5🔥42🤔1
Extropic анонсировал своё новое железо

http://extropic.ai/writing/inside-x0-and-xtr-0

Мы писали про эту и другие интересные темы тут
🔥13🤡3