Concise Research – Telegram
Concise Research
1.12K subscribers
241 photos
222 links
Исследования AI глазами исследователя
Автор: @snk4tr Сергей Кастрюлин
Download Telegram
Нужно больше золота мультимодалок

Создание и изучение моделей, способных генерировать и картинки и текст набирает обороты. Ниже несколько недавних работ по теме.

1. Qwen-Image Technical Report
Новая моделька от ByteDance представляет собой Qwen-VL с дополнительно обученной диффузионной головой (подробный разбор в КПД). Из особенностей:
- Огромный RF MMDiT денойзер (20В, куда так гнать)
- Генерацию текстов даже не доучивали, хорошее качество получили за счет того что просто заморозили исходную VLM
- Много заморачивались с систематизацией и стратификацией данных, но самые интересные подробности опущены

Для себя отмечаю работу в первую очередь как пруф того что можно получать хорошее T2I и editing качество не размораживая image understanding часть. Из минусов — долгое время генерации и отсутствие в публичном доступе весов editing модели (временно?)

2. Skywork UniPic: Unified Autoregressive Modeling for
Visual Understanding and Generation

Техрепорт от Сингапурского стартапчика. Буквально взяли и дообучили модельку на базе MAR-huge, в которую вошли:
- Qwen2.5-1.5B-Instruct
- SigLIP2-so400m
- denoising MLP

Получили компактную мультимодалку. Подход идейно ни чем не отличается ни от исходного MAR ни от Qwen-Image разве что в отличие от последнего understanding часть размораживается. Порадовал GenEval 0.86, что больше даже чем у BAGEL и GPT-4o 😐

Если вы не поняли где тут новелти, его тут нет. Просто тех. репорт для полноты картины.


3. Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
Мультимодальные генеративки сейчас представляют собой либо VLM с авторегрессором прямо дообученным на генерацию картинок (Transfusion/BAGEL), либо с отдельной диффузионной головой (MAR, Qwen-Image). Во втором случае авторегрессор продуцирует 1D последовательность картиночных эмбедов, которые далее денойзятся в картинку.

Авторы этой работы преобразуют 1D последовательно в 2D, добавляя процессу больше inductive bias’а (частично сохраняется семантическое отношение между регионами картинки). По заверениям авторов, их модификация существенно ускоряет обучение. Ждём появления большого числа подобных трюков с ростом популярности мультимодалок.
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Visual Autoregressive Modeling for Instruction-Guided Image Editing
[код, модель]

В последнее время большое распространение получила задача instruction-based editing. Она выгодно отличается от других задач редактирования тем что не требует отдельного, сложного в получения кондишена (маски, картины глубины и т.д.). Но за возможность просто написать промт и получить результат приходится платить: редактирование трудно сделать локальным, а именно заставить модель совсем не изменять не целевые регионы изображения.

Решать проблему предлагается с помощью авторегрессии потому что, в отличие от диффузии, регионы картинки генерируются чуть более независимо.

Вспомним, что в классической авторегрессии визуальные токены генерируются в одном, фиксированном разрешении. Вместо этого VAR предлагает кодировать картинку по масштабам:
- Первый токен — это картинка в низком разрешении, например 32х32
- Второй и последующие — это добавки (residuals) к интерполированной до более высокого разрешения версии картинки (64х64, 128х128 и т.д.).

Метод
Предлагается использовать VAE для задачи редактирования. Для этого нужно решить только один вопрос: как правильно кондишениться на исходную картинку. Если использовать полноразмерное изображение, то это:
- Вносит дополнительные вычислительные затраты
- Вносит resolution mismatch: генерации первых, низких разрешений должно обуславливаться на картинку в высоком разрешении, что точно не оптимально.

Авторы проанализировали влияние resolution mismatch и увидели, что проблема наиболее выражена на первом attention слое. Поэтому перед ним добавляется дополнительный блок Scale-Aligned Reference (SAR), в котором используется уменьшенная версия изображения. В остальном VAREdit — это VAR с нимимальными техническими изменениями.

Эксперименты
Обучение VAREdit инициализируют с весов Infinity — вышедшей вслед за VAR, отмасштабированной версии модели в той же парадигме. Модель в двух размерах (2.2В и 8.4В) учат с прогрессивным увеличением разрешения картинок на смеси датасетов SEED-Data-Edit и ImgEdit. Замеряются на EMU-Edit и PIE-Bench, предусмотрительно опуская GEdit Bench, естественно показывают SOTA.

Вместо вывода
Внимательный читатель мог заметить, что переход от классической авторегрессии к VAR убирает изначальный аргумент перехода к авторегрессии, а именно меньшую зависимость между соседними частями изображения (в отличие от диффузии). Учитывая прагматичный взгляд на диффузию как спектральную авторегрессию (эффективность которого показали в Switti), качество моделей вряд ли объясняется предложенным методом обучения.

Хочется надеяться, что в методе действительно есть что-то полезное и результаты обусловлены не только слабыми бейзлайнами и отсутствием самого современного бенчмарка.
👍1
Parallel Scaling Law for Language Models
[код/веса]

Традиционно, большие языковые модели масштабируют двумя способами: либо увеличивая число параметров (parameter scaling), что требует огромных затрат памяти, либо увеличивая объём вычислений на этапе инференса, например, генерируя длинные цепочки рассуждений (inference-time scaling), что сильно бьёт по задержке (latency).

Авторы предлагают третий, более эффективный с точки зрения инференса, путь: параллельное масштабирование (parallel scaling, PS). Идея заключается в увеличении параллельных вычислений как во время обучения, так и во время инференса, при этом повторно используя уже существующие параметры модели.

Идея

Источником вдохновения послужил метод Classifier-Free Guidance (CFG), широко используемый в диффузионных моделях. Авторы выдвигают гипотезу, что эффективность CFG кроется не в эвристических правилах, а в простом удвоении вычислений.

Метод ParScale
формализует и обобщает эту идею:

1️⃣ Входной текст x преобразуется в P различных версий с помощью P разных обучаемых префиксов (prefix tuning).
2️⃣ Все P версий параллельно пропускаются через одну и ту же модель-трансформер.
3️⃣ Полученные P выходов (распределений вероятностей для следующего токена) динамически агрегируются в один финальный выход с помощью небольшого обучаемого MLP.

Таким образом, вместо увеличения размера модели, мы увеличиваем "ширину" вычислений, многократно используя её веса.

Закон масштабирования и эксперименты

Ключевой вклад работы — новый закон масштабирования, который объединяет число параметров N и количество параллельных потоков P. Эмпирически была выведена формула:


Loss ≈ A / (N · (k log P + 1))^α + E


Из неё следует, что увеличение параллельных вычислений в P раз эквивалентно увеличению числа параметров в O(log P) раз. Причём коэффициент k, отражающий пользу от параллелизации, оказался выше для задач, требующих рассуждений (программирование), чем для задач на общие знания, что подтверждает гипотезу о том, что вычисления в большей степени влияют на "решательные" способности модели, а параметры — на "запоминающие".

Практическая ценность:

➡️ Эффективность инференса: PS значительно превосходит масштабирование параметров. Например, 1.6B модель с P=8 достигает той же производительности, что и значительно более крупная модель, но требует в 22 раза меньшего увеличения памяти и в 6 раз меньшего увеличения задержки.
➡️ Эффективность обучения: чтобы снизить затраты на обучение (P раз больше FLOPs), предложена двухэтапная стратегия: сначала модель обучается стандартно на большом объёме данных (1T токенов), а затем дообучается с использованием PS на малом объёме (20B токенов).
➡️ Динамическое масштабирование: Метод можно применить к уже существующим предобученным моделям (например, Qwen-2.5). Достаточно дообучить только небольшие компоненты PS (префиксы и агрегатор), заморозив основную модель. Это открывает возможность гибко менять P на этапе инференса, балансируя между производительностью и затратами под конкретную задачу.

Вместо вывода

Идея, безусловно, элегантная и крайне прагматичная. Вместо погони за триллионами параметров авторы предлагают более разумно использовать имеющиеся ресурсы. Возможность "динамической" мощности модели на лету выглядит особенно привлекательно для практического развёртывания.

Однако остаются вопросы. В отличие от CFG, где входы семантически различны (с условием и без), в PS используются абстрактные обучаемые префиксы. Остаётся не до конца ясным, что именно они выучивают — создают ли они действительно разные "взгляды" на задачу или просто действуют как своеобразный ансамбль-регуляризатор.

Кроме того, логарифмическая зависимость O(log P) намекает на быстрое затухание эффекта. Эксперименты проводились до P=8. Интересно, есть ли смысл идти дальше, к P=16 или P=32, или там уже наступает полное насыщение? Тем не менее, работа предлагает очень свежий и трезвый взгляд на законы масштабирования и, вероятно, задаёт новый вектор для создания более эффективных LLM.
👍61
Draw-In-Mind: Learning Precise Image Editing via Chain-of-Thought Imagination
[код, данные и веса обещают тут]

Yet another генеративка, обученная одновременно на T2I и instruction-based editing, уже не должна никого удивлять. Тем не менее, коллектив Сингапурских академиков и ресерчера из TikTok (не путать с танцующими под музыку блогерами) решили найти свою нишу в эффективности и компактности.

Это важно, потому что последние предложенные в этом классе модели были довольно крупными:
- BAGEL: 2x7B Qwen + image encoder
- NexusGen: 7B Qwen-VL + 10B Flux.1
- Qwen-Image: 7B Qwen-VL + 20B denoiser

Метод
В этой работе предлагается к 7B Qwen-VL прикрутить SANA1.5-1.6B через небольшой адаптер (2-х слойный MLP). По заветам Qwen-Image, VLM часть остаётся замороженной в то время как адаптер и денойзер полностью размораживаются и дообучаются на задачи генерации и эдитинга.

Данные
Вместе с моделью авторы предлагают свои T2I и editing датасеты:
- DIM-T2I представляет собой 14М не фильтрованных по внешней привлекательности семплов с длинными дескриптивными кепшенами.
- DIM-EDIT - 233k триплетов, примечательных тем что инстракты представляют собой chain-of-thoughts (CoT) цепочки.

Последний пункт хочется обсудить отдельно. Авторы отмечают, что обычно инстракты в editing датасетах слишком простые и короткие, а потому для хорошего качества генеративной модели хорошо бы сначала порассуждать или додумать конкретику относительно запроса пользователя. Делая инстракты сразу в виде CoT эта необходимость снимается, задача упрощается, качество растёт.

*Запишем тут карандашиком, что есть риск доменного сдвига, когда пользователи будут писать свои двух/трёх-словные, супер не определённые инстракты.

Эксперименты
Модель учится в две стадии:
- Первая стадия обучения эдитинга проводится на датасете UltraEdit, который большой, но относительно шумный (содержит много шакальной синты из сравнительно старых и слабых моделей).
- Вторая стадия — дообучение на небольшом, но более качественно DIM-EDIT с CoT инстрактами.

На первых шагах обучения денойзер оставляют замороженным и проучивают с небольшим LR в течение 1 эпохи только коннектор. Оставшееся обучение продолжают уже с размороженным денойзером и более агрессивным LR.

Результаты
Радуют хорошие результаты бенчей и потенциальная высокая эффективность модели. Огорчает почти наверняка шакальное на практике качество генерации из-за известных проблем дефектности моделей семейства SANA (расплата за высокую скорость, достигаемую глубоким автоэнкодером DC AE). В статье всего одна куцая плиточка с картинками, что как бы намекает.
👍51
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
[код и веса есть]

Существующие на сегодняшний день мультимодальные системы строятся по модульному принципу: отдельные модели для понимания (understanding), генерации и редактирования изображений. Современные "объединённые" (unified) модели часто наследуют эту сложность, используя внешние компоненты, такие как ViT для кодирования изображений или отдельные визуальные токенизаторы.

Авторы утверждают, что истинное объединение требует более фундаментального подхода. Они предлагают OneCAT — модель, построенную на чистой decoder-only архитектуре, которая унифицирует задачи понимания, генерации и редактирования без каких-либо внешних компонентов на этапе инференса.

Метод

Ключевая идея — отказаться от отдельного энкодера для изображений. Вместо этого OneCAT использует простую и легковесную Patch Embedding свертку, чтобы "нарезать" изображение на патчи и превратить их в непрерывные (continuous) визуальные токены. Эти токены подаются напрямую в LLM (на базе Qwen2.5) вместе с текстовыми токенами.

Внутри трансформерных блоков используется Mixture-of-Experts (MoE) с тремя FFN-экспертами:

➡️ Text FFN: для обработки текстовых токенов.
➡️ Visual Understanding FFN: для обработки непрерывных визуальных токенов (из Patch Embedding).
➡️ Visual Generation FFN: для обработки дискретных визуальных токенов, которые генерируются моделью.

Такая архитектура позволяет:

1️⃣ Реализовать раннее слияние (early fusion) модальностей, так как визуальные и текстовые токены обрабатываются вместе с первых слоёв.
2️⃣ Унифицировать задачи: для понимания и редактирования (подачи референсного изображения) используется один и тот же слой Patch Embedding.
3️⃣ Ускорить инференс: отсутствие ViT-энкодера снижает время обработки, особенно для изображений высокого разрешения.

Для генерации изображений используется подход Next-Scale Prediction (NSP), аналогичный VAR/Infinity/Switty. Модель авторегрессионно предсказывает дискретные визуальные токены иерархически — от низкого разрешения к высокому. Чтобы улучшить этот процесс, в Visual Generation FFN был добавлен Scale-Aware Adapter (SAA) — набор LoRA-подобных модулей, каждый из которых специализируется на своем масштабе (разрешении) генерируемых токенов.

Обучение и эксперименты

Обучение проходит в три этапа:
1️⃣ Предварительное обучение экспертов: Поскольку Und. FFN инициализируется из текстового FFN и не имеет "зрительного опыта", для его обучения используется дистилляция знаний. Создаётся "учитель" (InterViT + Qwen2.5), и OneCAT учится имитировать его скрытые состояния. Параллельно обучается Gen. FFN на задачах T2I. Основные веса LLM заморожены.
2️⃣ Промежуточное обучение (Mid-Training): Размораживаются все веса, модель обучается на смешанном наборе задач (понимание, генерация, редактирование, текст), вводятся SAA-модули и динамическое разрешение изображений.
3️⃣ SFT (Supervised Fine-Tuning): Дообучение на высококачественных инструктивных данных для улучшения следования инструкциям и качества генерации.

OneCAT показывает SOTA-результаты среди открытых "unified" моделей, особенно в задачах редактирования и генерации по сложным инструкциям. Модель быстрая: до 10 раз быстрее генерирует изображения (по сравнению с диффузионным BAGEL).

Вместо вывода

Нельзя не отметить, что "чистота" архитектуры на этапе инференса достигается за счёт усложнения процесса обучения. Дистилляция с помощью внешнего "учителя" на первом этапе — это, по сути, перенос сложности с инференса на обучение. Возникает вопрос: что именно выучивает Patch Embedding и Und. FFN? Являются ли они полноценной заменой ViT, или же они просто научились эффективно "компилировать" визуальную информацию в формат, понятный конкретному "учителю"?

Также важно, что не смотря на отказ от VAE для кодирования (encode) входных картинок, авторы продолжают использовать multi-scale VAE для декодирования (decode) результатов. Известно, что учить такие VAE тяжело, а качество реконструкции с их помощью накладывает существенные ограничения на верхний предел качества генераций.
👍31
Свежие релизы от Tensent

Многие знают компанию по их весьма неплохой видео модельке HunyuanVideo. На днях случилось два любопытных релиза.

1️⃣ Выложили новую T2I модельку HunyuanImage-2.1. Тех. репорт пока отсутствует, но основные моменты можно понять по описанию в репозиториях с кодом и моделькой.
2️⃣ Модель включает отдельный модуль PromptEnhancer про который авторы рассказывают отдельно.

Хочется разобраться что, собственно, было сделано.

1. HunyuanImage-2.1: An Efficient Diffusion Model for High-Resolution (2K) Text-to-Image Generation​
[код, веса]

Модель представляет собой DiT с двумя текстовыми энкодерами (VLM + ByT5), обученный с REPA на DINOv2 поверх собственного х32 VAE.

Последний пункт интересен тем что про VAE не слова, а вообще хороших х32 VAE кроме DC AE особо и не выходило. Технически, предложенный VAE отличается от DC AE хотя бы тем что имеет аттеншен в ботлнеке, ждем полного тех. репорта для больших подробностей.

После претрена модель дообучают в две стадии: SFT + RLHF (такую же схему мы уже давно используем в YandexART). После этого модель дистиллируют, по заявлению авторов, новым методом дистилляции на основе meanflow, но детали пока отсутствуют.

Использование глубокого автоэнкодера позволяет быстро и качественно генерировать картинки в 2К разрешении, а PromptEnhancer модуль (обсуждаем ниже) улучшает text-image alignment и визуальное качество.

Замеры делают с помощью некого Structured Semantic Alignment Evaluation, SSAE (расскажите если знаете что это) и side-by-side сравнений, в которых текущая OS SOTA в виде HiDream тактично игнорируется.

2. PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting
[код, веса]

Еще со времен DALL-E 3 👴 известно, что релевантность T2I моделей повышается если:
- Модель обучить на дискриптивных промтах (потому что в них более четко сформулировано что нужно сделать)
- Выучить некоторую модель переписывания промтов, которая будет делать обычные промты из бенчей и от пользователей более дискриптивными.

Авторы предлагают PromptEnhancer — универсальный фреймворк для переписывания промптов, который улучшает любую T2I-модель без необходимости изменять её веса.

Идея и метод

Ключевая идея — полностью отделить задачу улучшения промпта от задачи генерации изображения. Framework состоит из двух основных компонентов:

1️⃣ CoT Rewriter: модель-переписчик (на базе Hunyuan-7B-Instruct), которая использует методику "цепочки рассуждений" (Chain-of-Thought, CoT). Она анализирует исходный промпт, выявляет потенциальные неоднозначности и обогащает его деталями, касающимися атрибутов, композиции и стилистики, имитируя процесс человеческого мышления.
2️⃣ AlignEvaluator: специализированная модель для оценки выравнивания (alignment) между изображением и текстом. В отличие от общих метрик, AlignEvaluator обучен давать детальную и гранулированную обратную связь на основе системной таксономии из 24 ключевых аспектов (KeyPoints), сгруппированных в 6 категорий (например, понимание отрицаний, подсчет объектов, пространственные отношения, рендеринг текста и т.д.).

Обучение и результаты

Учат в два этапа: дистиллят мощного учителя (Gemini-2.5-Pro), потом делают GRPO на парах где разметку получают из из VLM. По замерам авторов релевантность растёт по всем 24 аспектам на 5.1%, наибольший рост в понимании отношений схожести (+17.3%), контрфактических сценариях (+17.2%) и подсчете объектов (+15.0%).

В работе мне не хватило аблейшена утверждения о том что PromptEnhancer — универсальная система, не зависящая от T2I модели. Впрочем, веса и код открыты, можно проверить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍4
HunyuanImage 3.0 Technical Report
[код, веса]

Tensent продолжают релизы, новая HunyuanImage позиционируется как самая мощная open-source модель для генерации изображений на данный момент. В отличие от предыдущих версий, это не просто DiT-модель, это гибридная мультимодальная система, построенная на базе очень большого MoE LLM (Hunyuan-A13B) с 80B+ общих и 13B активных параметров. Модель унифицирует задачи понимания и генерации в едином фреймворке, однако для публичного доступа была выложена только её часть, отвечающая за генерацию.

Как это работает

В основе лежит "нативная мультимодальная модель" — MoE LLM, которая управляет процессом генерации. В отличие от чисто авторегрессионных подходов (OneCAT) или классических DiT, HunyuanImage 3.0 использует гибридную архитектуру, схожую с парадигмой Transfusion/JanusFlow, где LLM руководит диффузионным процессом в латентном пространстве.

Ключевые архитектурные решения

➡️Dual-Encoder
Для обработки изображений используются сразу два энкодера: VAE (с даунсэмплингом х16) для задач генерации и Vision Encoder (ViT) для задач понимания. Их признаки конкатенируются, что позволяет модели одновременно работать с разными аспектами визуальной информации.

➡️Generalized Causal Attention
Чтобы совместить авторегрессионную природу текста и "полноценное" внимание для изображений, используется специальный механизм масок. Текстовые токены видят только предыдущие токены, в то время как токены изображения могут "смотреть" на все предыдущие токены и на все остальные токены в пределах этого же изображения.

➡️Нативный CoT (Chain-of-Thought)
Модель не просто получает улучшенный промпт; она обучена сама выполнять процесс рассуждения и переписывания промпта как неотъемлемый шаг перед генерацией. Это достигается за счет обучения на специально собранном Text-to-Text-to-Image (T2TI) датасете, содержащем цепочки рассуждений.

Ключ к успеху — данные и многоэтапное обучение

Высокое качество модели — результат колоссальной работы с данными и сложного пайплайна обучения.

1️⃣ Данные
Исходный пул из 10 млрд изображений прошел через 3-этапную фильтрацию (удаление дубликатов, низкого качества, AIGC-контента, оценка эстетики). Была разработана продвинутая система иерархического двуязычного капченинга, которая генерирует описания разной степени детализации и использует специализированные "агенты" (OCR, Named Entity) для проверки фактов.

2️⃣ Прогрессивное предобучение
Обучение разделено на 4 стадии с постепенным увеличением разрешения изображений и добавлением более сложных данных (например, interleaved-data на 3-й стадии и CoT-данные на 4-й).

3️⃣”Агрессивный" пост-тренинг
После предобучения модель проходит целый каскад выравнивающих процедур: SFT, DPO (для устранения артефактов), MixGRPO (для улучшения эстетики и выравнивания с текстом), SRPO и новый внутренний метод ReDA для повышения реализма.

Как мерились

Авторы справедливо критикуют существующие бенчмарки (T2I-CompBench, GenEval) за примитивные промпты и ненадёжные автоматические метрики. Вместо них они предлагают собственный фреймворк SSAE (Structured Semantic Alignment Evaluation). В нём LLM сначала парсит промпт на 12 семантических полей (объекты, атрибуты, сцена и т.д.), а затем более продвинутая MLLM с CoT оценивает сгенерированное изображение по каждому из этих пунктов.

По результатам человеческой оценки, HunyuanImage 3.0 значительно превосходит предыдущую версию 2.1 и конкурирует на равных с ведущими закрытыми моделями (Seedream 4.0, GPT-Image).

Вместо вывода

HunyuanImage 3.0 — это демонстрация мощи современного индастриал-ML. Успех модели кроется не в одном прорывном архитектурном решении, а в синергии четырёх факторов: огромный масштаб MoE LLM, проработанный пайплайн подготовки данных, многоступенчатое прогрессивное обучение и каскад из самых современных RL-техник.

В любом случае, это новый и очень высокий стандарт для open-source комьюнити.
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡6🔥3
Why Language Models Hallucinate

Эх тяжела жизнь ресерчера OpenAI: твоей статье меньше месяца, а уже 9 цитирований. Интерес вполне заслуженный из-за высокого ожидаемого качества, небольшого общего числа публикаций и хайпового названия. Давайте почитаем что написали в этот раз.

LLM галлюцинируют (сюрприз), при этом большинство исследователей ищут причины галлюцинаций в сложных свойствах архитектуры трансформеров или данных. Эта работа предлагает иной, более простой взгляд. Авторы утверждают, что языковые модели галлюцинируют потому что вся система их обучения и оценки поощряет угадывание. Подобно студенту на экзамене, который боится оставить ответ пустым, LLM выгоднее выдать правдоподобную ложь, чем честно признаться в незнании ("I don't know").

Откуда берутся галлюцинации (этап Pre-training)

Авторы демистифицируют происхождение галлюцинаций, сводя сложную задачу генерации текста к более простой и изученной задаче бинарной классификации. Они вводят гипотетическую проблему "Is-It-Valid" (IIV), в которой модель должна лишь отличать валидные утверждения от невалидных.

Ключевой теоретический результат статьи — это доказательство математической связи: уровень ошибок генерации (error rate) как минимум вдвое превышает уровень ошибок классификации в задаче IIV. Иными словами, если модель в принципе не может идеально отличить правду от вымысла, она неизбежно будет продуцировать ошибки (включая галлюцинации) в процессе свободной генерации.

Ошибки классификации, в свою очередь, возникают по хорошо известным в статистике причинам:

1️⃣ Сложность данных без паттернов (Arbitrary Facts)
Если факты произвольны и не имеют структуры (например, дни рождения малоизвестных людей), их невозможно выучить, не увидев в обучающей выборке. Ошибка предсказания таких "одноразовых" фактов (singletons) напрямую связана с их частотой в данных.

2️⃣ Несовершенство модели (Poor Models)
Модель может быть в принципе неспособна идеально описать данные, как, например, триграммная модель не может уловить длинные зависимости в грамматике.

3️⃣ Вычислительная сложность, сдвиг распределения, GIGO и другие классические проблемы ML.

Почему галлюцинации выживают (этап Post-training)

На этапе пост-тренинга (SFT, RLHF) модели должны были бы отучиться от галлюцинаций. Но этого не происходит, и причина, по мнению авторов, кроется в системе оценки. Подавляющее большинство популярных бенчмарков (MMLU-Pro, SWE-bench, HLE и др.) используют бинарную систему оценки: 1 балл за правильный ответ и 0 за неправильный или пустой (IDK).

В такой системе для модели всегда математически выгоднее "угадать" и получить шанс на 1 балл, чем ответить "I don't know" и гарантированно получить 0. Модели оптимизируются под то, чтобы быть хорошими "сдатчиками тестов", а не честными ассистентами.

Что делать? Социо-техническое решение

Проблема не в том, что у нас нет хороших бенчмарков для измерения галлюцинаций. Проблема в том, что доминирующие лидерборды их не используют и поощряют "враньё". Поэтому решение должно быть социо-техническим: нужно менять не модели, а правила игры на существующих, влиятельных бенчмарках.

Авторы предлагают внедрять "цели по уверенности" (confidence targets) прямо в текст заданий. Например, добавлять в промпт фразу: "Отвечай, только если уверен более чем на 90%, так как за ошибки предусмотрен штраф". Это вводит явные штрафы за неверные догадки и делает честное признание в неуверенности (IDK) рациональной стратегией.

Вместо вывода

Эта работа — скорее сильный концептуальный манифест, чем технический отчет о новой модели. Её главная ценность в том, что она переносит фокус с загадочных "свойств нейросетей" на вполне измеримые и понятные стимулы и систему оценки. Идея о том, что LLM — это просто "хорошие сдатчики тестов", которым выгоднее рисковать, чем молчать, звучит очень убедительно. Понравилось сведение генерации к классификации, не понравилось предложенное социо-техническое решение. Оно выглядит логичным, но точно столкнется с огромной инерцией исследовательского сообщества, а еще “хорошие сдатчики тестов” точно научатся хакать и его.
🔥103👍1
Forwarded from AbstractDL
Синтетические данные для претрейна LLM: когда они помогают, а когда вредят (by Meta)

Можно ли обучать языковые модели на данных, сгенерированных другими LLM? И если да, то сколько такой синтетики нужно подмешивать? Meta провели одно из самых масштабных исследований на эту тему — обучили больше 1000 моделей (до 3B параметров) на 100k+ GPU часов, чтобы разобраться раз и навсегда, но основные выводы получились неоднозначные.

Авторы тестировали три типа синтетики: перефразирование веб-текстов в "высококачественный" стиль (HQ), перефразирование в QA-формат и генерацию синтетических учебников (textbook-style данных по типу Phi).

Что работает:
- Смешивание 1/3 перефразированных синтетических данных с 2/3 натуральными веб-текстами может ускорить обучение в 5-10 раз (по достижению того же validation loss) на больших датасетах.
- "Золотое сечение" для миксов оказалось около 30% синтетики. Причём это соотношение удивительно стабильно для разных размеров моделей и объёмов данных.

Что НЕ работает:
- Обучение только на перефразированной синтетике не быстрее, чем на обычных веб-текстах.
- Обучение на "учебниках" даёт заметно более высокий loss, особенно на малых объёмах данных.
- Просто взять генератор побольше (70B вместо 8B) не даёт лучших результатов — иногда даже становится хуже 🤷‍♂️

Интересно, что при проверке эффекта model collapse (это когда модель деградирует, обучаясь на собственных или синтетических данных, теряя разнообразие и усиливая ошибки), авторы получили смешанную картину: перефразированная синтетика не привела к деградации даже при крупных масштабах, а вот данные в формате учебников действительно вызвали признаки коллапса.

Ещё один контринтуитивный результат из анализа unigram-распределений: CommonCrawl имеет самое широкое покрытие токенов и наименьшую KL-дивергенцию к тестовым датасетам, но это не привело к лучшему качеству. Похоже, степень полезности данных зависит не только от сходства с тестом.

Статья
👍6🔥31
How much do language models memorize?

Вопрос о том, запоминают ли языковые модели данные, на которых они обучались, является одним из ключевых. Обычно эту проблему рассматривают либо через прямую "экстракцию" данных из модели, либо через "атаки на определение членства" (membership inference). Однако оба подхода имеют недостатки. Экстракция не позволяет отличить запоминание от хорошего обобщения (модель может сгенерировать 2+2=4, не видя этого примера, а просто "поняв" математику). Атаки на членство дают лишь статистическую оценку по всему датасету, а не для конкретного примера.

Авторы предлагают новый, более фундаментальный подход к измерению запоминания, основанный на теории информации и идее сжатия.

Идея и метод

Ключевая идея — измерять запоминание в битах. Модель считается "запомнившей" точку данных x, если с помощью этой модели можно сжать x в более короткое представление. Эта концепция основана на Колмогоровской сложности, но для практических расчётов используются логарифмы вероятностей, которые выдает модель (принцип арифметического кодирования).

Самое важное: авторы разделяют запоминание на две компоненты:

1️⃣ Непреднамеренное запоминание (Unintended Memorization): Информация, которую модель хранит о конкретном датасете. Это и есть "вредное" запоминание, которое нас интересует.
2️⃣ Обобщение (Generalization) или "намеренное запоминание": Информация, которую модель извлекла об общем процессе генерации данных (например, правила грамматики или арифметики).

Чтобы отделить одно от другого, используется референсная модель — более крупная модель, обученная на огромном суперсете данных, которая аппроксимирует "истинное" распределение данных. Тогда непреднамеренное запоминание точки x моделью θ' — это разница в битах, необходимых для кодирования x с помощью референсной модели θ и с помощью нашей модели θ'. Если θ' сжимает x лучше, чем θ, значит, она содержит специфическую информацию об x, которой нет у "всезнающей" референсной модели.

Сколько информации хранится в параметрах?

Первая часть экспериментов была направлена на измерение "чистой" ёмкости моделей. Для этого исключили возможность обобщения, обучая модели на датасетах из случайных битовых строк.

Результат: Модели семейства GPT могут хранить примерно 3.6 бита информации на один параметр (при обучении в bfloat16). Удвоение точности до float32 увеличивает эту ёмкость незначительно (до ~3.8 бит/параметр), что говорит о неэффективности избыточной точности для простого хранения
данных.

Запоминание и обобщение на реальных текстах

Далее эксперименты повторили на текстовых данных (FineWeb), где обобщение уже возможно и полезно.

Ключевые наблюдения:

➡️Сначала заполняется ёмкость: Модель сначала активно запоминает данные, пока не достигнет своего предела ёмкости. Общее количество запомненной информации (в битах) растет с размером датасета, но в итоге упирается в плато, определяемое размером модели (см. Figure 1).

➡️"Гроккинг" и двойной спуск: Как только ёмкость модели заполнена, начинается самое интересное. Модель больше не может позволить себе хранить информацию о каждом примере отдельно и вынуждена искать общие, обобщающие паттерны. В этот момент непреднамеренное запоминание начинает падать, а обобщение – расти. Именно на этом переходе, когда размер датасета (в битах) превышает ёмкость модели, авторы наблюдают феномен "двойного спуска" (double descent) — временное ухудшение качества на тестовых данных с последующим улучшением.

➡️Законы масштабирования для Membership Inference: На основе своих измерений авторы вывели закон масштабирования, который предсказывает успешность атак на определение членства в зависимости от ёмкости модели и размера датасета. Закон подтверждается на более крупных моделях и показывает, почему для современных LLM, обученных на триллионах токенов, такие атаки в среднем практически невозможны.

Работа понравилась как пример применения фундаментальных идей из теории информации для ответа на очень практический вопрос. Она дает нам не просто качественные рассуждения, а количественную метрику — биты на параметр — для оценки ёмкости моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥103
Работы по сбору датасетов для instruction-based editing

Ранее мы разбирали мультимодальную генерацию и задачи редактирования изображений с точки зрения моделей и методов. В этом посте хочется подсветить несколько важных датасетов, вышедших за последний год.

UltraEdit: Instruction-based Fine-Grained Image Editing at Scale
[страница проекта с ссылками на датасеты, no licence]
Декабрь 2024

Это самый большой датасет по теме на сегодняшний день (~4М семплов). Работа максимально фокусируется на увеличении разнообразия инстрактов, поскольку в предыдущих часто использовались одни и те же или очень похожие инстракты.

Многостадийный процесс сбора данных начинается с генерации инстрактов людьми. Асессоров просят взять промты из СОСО и написать на их основе инстракты для редактирования картинок. Так собирают ~10k инстрактов.

Далее берут ~1.6M реальных картинок и кепшенят. Из полученных кепшенов и инстрактов генерят LMкой кепшен таргет картинки, по которому с помощью T2I модели делают генерацию (самым топорным SDEdit подходом).

Для того чтобы сделать region-based editing делают то же самое что в предыдущем параграфе, только удаляют изменения по маске сгенерированной с помощью GroundingDINO + SAM.

Замечания
- Region-based семплов сильно меньше чем семплов с изменением всей картинки (100к против почти 4М)
- Пост фильтрации нет => скорее всего довольно шумные данные
- При этом, датасет очень неплохо стратифицирован по контенту на картинках. В статье есть график где представлено умеренно равномерное распределение по большому числу концептов.

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
[датасет на HF, no licence]
Ноябрь 2024

Этот датасет на 1.2М семплов примечателен тем что по заявлению авторов BAGEL он основной источник их interleaved данных (кроме данных на основе видео, которые они собирают отдельно).

Датасет включает в себя данные по 7 задачам:
- Object Swap
- Object Removal
- Object Addition
- Attribute Modification
- Background Swap
- Environment Change
- Style Transfer

В самих пайплайнах генерации нет ничего нового относительно описанных выше статей:
- Addition/Removal/Object Swap/Background Swap делается каким-то своим инпейнтингом;
- Модификация атрибутов и окружения делается с помощью Prompt-to-Promp;
- Для Style Transfer используют CosXL-Edit.

В этой работе первый раз используется нормальная фильтрация данных. Вместо эвристик на CLIP фичах используют VIEScore — автобенч на основе GPT-4o (который, кстати, и в основе топового сейчас GEdit bench). На самом деле, они не прогоняли прям всё через GPT-4o (дорого), вместо этого дообучили InternVL2 на GPT разметке и уже ей фильтровали данные.

Замечания
- Вероятнее всего, самый качественный датасет из разобранных.

GPT-IMAGE-EDIT-1.5M
A Million-Scale, GPT-Generated Image Dataset

[датасет на HF, no licence]
Июль 2025

Работа объединяет, систематизирует и улучшает данные из двух предыдущего датасета, а также AnyEdit и HQ-Edit. Данные именно из этих работ брали, скорее всего, из-за того что в них (в отличие от предыдущих) картинки в высоком разрешении (близком к 1к).

В этой работе авторы:
- Смерджили датасеты, после чего:
- Перегенерили часть шакальных таргет картинов в триплетах (из особенно много в HQ-Edit);
- Переписали часть шакальных инстрактов;
- Взяли половину картинок из OmniEdit и добавили более сложных и инстрактов, поскольку считают, что это важно для достижения качества GPT-Image-1.

Крутость своего датасета доказывают тем, что дообучение весьма средненького FLUX Kontext на этих данных сильно бустит GEdit bench, доводя значения до близких к GPT-Image-1.

Замечания
- Выглядит как очень перспективный датасет и наиболее качественный датасет на сегодняшний день;
- Из минусов: всё еще не включает free form manipulation данные из видео.

О том, какие ещё датасеты для instruction-based editing выходили в последнее время, написал в канале @timeforcv.
🔥6👍53
Transfer between Modalities with MetaQueries
[страничка с кодом и данными]

Выше мы много обсуждали мультимодальные модели, способные одновременно понимать и генерировать картинки и текст. Архитектурно, для создания таких моделей сейчас предлагается два подхода:
1. Учить генеративную картиночную голову поверх VLM (Nexus-Gen, Qwen-Image);
2. Учить, условно, unified модель, которая будет генерить сразу картинки и текст (BAGEL, Transfusion, Show-o).

В первом случае надо подумать как именно передавать инфу из VLM в картиночный генератор. Обычно в качестве такого генератора используют диффузионку. Тогда, если представить, что VLM — это просто текстовый энкодер, то можно использовать наиболее популярный интерфейс — подавать в денойзер текстовые эмбединги с последних слоёв VLM. Так делать можно, но авторы этой работы утверждают, что есть способ получше и предлагают подход MetaQueries.

Идея и метод

MetaQueries — это набор небольшого количества обучаемых векторов (queries), которые подаются на вход замороженной VLM вместе с обычным промптом (текстом и/или изображением). Эти "мета-запросы" заставляют VLM извлечь из своих латентных представлений всю необходимую информацию для генерации.

Полученные на выходе представления от MetaQueries затем через небольшой обучаемый коннектор (трансформер-энкодер) подаются в качестве условия (condition) в любую предобученную диффузионнку, заменяя ее стандартный текстовый энкодер.

Весь процесс обучения сводится к простой и стабильной задаче: обучить MetaQueries и коннектор на обычных парах (картинка, промт) с любым вариантом диффузионного лосса.

Метод сильно напоминает Q-Former с двумя отличиями:
- В MetaQueries нужно прокидывать градиенты через энкодер (VLM);
- В MetaQueries картиночный condition подаётся прям на вход, а не через cross-attn коннектора.

Эксперименты и результаты

Авторы учат коннекторы размера от 84М до 2В между весьма мелкими LLaVA-OneVision-0.5 и Sana-0.6B в претрен сетапе (lr=1e-4, bs=4096) порядка 50к итераций чтобы показать FID MJHQ-30k порядка 6 и GenEval порядка 0.6 😂 (ладно-ладно, скидка на мелкие VLM и денойзер).

Важно, что в процессе проаблейтили и на цифрах показали, что:
- Дообучение без разморозки VLM даёт примерно такое же качество как с разморозкой но без MetaQueries;
- Больше длина последовательности queries — не всегда лучше (есть некая золотая середина);
- По бенчам метод действительно лучше чем просто брать эмбеды с последнего слоя

Еще понравилось, что с помощью MetaQueries можно почти идеально выучить реконструкцию картинок. Это значит, что метод позволяет довольно детально пробрасывать через VLM картиночную инфу, что полезно для задач с использованием картиночного condition’a.

Не понравилось, что надо пропускать градиенты через VLM. На практике может оказаться, что Q-Former даёт примерно такое же качество без дополнительных инженерных приседаний.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🥰1
LightBagel: A Lightweight, Double-Fusion Framework for Unified Multimodal Understanding and Generation
[пока ничего не выложили, но обещают тут и верится, потому что это авторы BAGEL]

Современные мультимодальные модели (MLLM), способные одновременно понимать и генерировать контент, часто требуют колоссальных вычислительных ресурсов и обучения с нуля. Это создает высокий порог входа для исследователей. Авторы LightBagel предлагают ресурсоэффективный подход: вместо создания новой модели "с нуля" они стратегически "сплавляют" (fuse) уже существующие SOTA-модели, специализированные на своих задачах. Подобным уже занимались авторы Nexus-Gen (разбор) пытаясь подружить Qwen-VL с SANA. В этой работе авторы целятся получить BAGEL-like модельку за минимальный компьют стартуя с предобученных VLM и T2I моделей.


Идея и метод: Double Fusion

Берем Qwen2.5-VL-7B для понимания и Wan2.2-TI2V-5B для генерации. Далее происходит самое интересное:

➡️Сохранение "экспертов": Оригинальные блоки обеих моделей остаются нетронутыми и замороженными (VLM) или минимально дообучаемыми (DiT). Таким образом сохраняются их сильные стороны (например, способность VLM к рассуждению).

➡️"Вживление" мостов: Между каждым блоком VLM и DiT вставляется новый, легковесный мультимодальный self-attention блок. Эти блоки инициализируются нулями, чтобы не нарушать исходное распределение признаков в начале обучения.

➡️Двойное слияние (Double Fusion): Этот механизм называется "двойным", потому что он одновременно решает две задачи:
1️⃣Слияние путей (understanding + generation): Мультимодальные attention-блоки позволяют информации свободно "перетекать" между путем понимания (текст + ViT-токены) и путем генерации (VAE-токены) на всех уровнях глубины сети. Это глубокое слияние ("deep fusion") значительно эффективнее, чем "поверхностное" (shallow fusion), где для генерации используется лишь финальный эмбеддинг модели понимания (агрумент против подхода Qwen-Image/Nexus-Gen).
2️⃣Слияние признаков (ViT + VAE): Модель естественным образом объединяет семантические признаки от ViT-энкодера (из VLM) и пространственные детали от VAE-энкодера (из DiT). Это особенно важно для задач редактирования, где нужно одновременно понимать, что менять (семантика), и сохранять остальное изображение в неизменности (детали).

Обучение и результаты

Ключевое преимущество LightBagel — высокая эффективность по данным. Модель достигает SOTA-уровня, будучи обученной всего на 35B токенов, что на порядки меньше, чем у многих конкурентов (см. Figure 1).

Показывают следующие замеры:
➡️T2I: 0.91 на GenEval (композиционная генерация), 82.16 на DPG-Bench (сложные промпты).
➡️Image Editing: 6.06 на GEditBench и 3.77 на ImgEdit-Bench, опережая многие специализированные модели.
➡️Understanding: Поскольку VLM-часть (QWen2.5-VL) заморожена, модель полностью сохраняет её SOTA-способности к пониманию.

Интересно, что и fused модельки можно получать в сетапе дообучения, используя ранее обученные VLM и денойзер. Есть, правда, и минус — VLM и денойзер должны быть в достаточной степени архитектурно похоже, иначе не очевидно как и куда встраивать multi-modal attn блоки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51
The Principles of Diffusion Models

Пока что самое полное руководство/монография из того что видел по диффузионкам, от Сонга, Эрмона и компании.
👍194🔥1
Emu3.5: Native Multimodal Models are World Learners
[код и веса]

Emu3.5 представляет собой развитие идей предыдущих версий Emu, но с колоссальным скачком в масштабе и амбициях. Это не просто еще одна мультимодальная модель, а попытка создать "world model" — модель мира, способную нативно предсказывать следующее состояние не только в тексте, но и в видеоряде. Архитектурно это единый decoder-only трансформер (34B параметров), обученный на одной задаче — предсказание следующего токена (next-token prediction).

Данные

Ключевая особенность Emu3.5 — это данные. Вместо того чтобы полагаться в основном на пары (картинка, текст), модель обучалась преимущественно на чередующихся (interleaved) видео-текстовых данных, полученных из интернет-видео (более 10 триллионов токенов).

- Как это работает: видео нарезается на ключевые кадры (keyframes), а аудиодорожка транскрибируется в текст с временными метками. Затем кадры и соответствующие им фрагменты текста выстраиваются в одну длинную последовательность.
- Что это дает: такой подход позволяет модели изучать не статичные сцены, а продолжительные во времени события, динамику и причинно-следственные связи. Это основа для моделирования мира.

Для обучения также использовались стандартные image-text пары, данные для any-to-image (X2I) задач и чисто текстовые данные для сохранения языковых способностей.

Модель

- Unified Next-Token Prediction: В основе лежит стандартная авторегрессионная модель. Все модальности (текст, изображения, видео) токенизируются в единое дискретное пространство. Для визуальных данных используется токенизатор IBQ собственного производства с рядом улучшений (например, дистилляция признаков от SigLIP), а также опциональный диффузионный декодер для повышения качества реконструкции.
- DiDA (Discrete Diffusion Adaptation): Главная проблема авторегрессионных моделей — медленная генерация изображений (токен за токеном). DiDA решает эту проблему, временно превращая авторегрессионную модель в параллельный двунаправленный предсказатель на этапе генерации изображения. Это достигается за счет адаптации модели к задаче дискретной диффузии: последовательность токенов изображения сначала "зашумляется", а затем восстанавливается за несколько итераций. Это ускоряет генерацию изображения примерно в 20 раз без потери качества.
- Масштабное обучение и пост-тренинг: Модель прошла два этапа предобучения, затем SFT (на 150 млрд. сэмплов! 😨), а после — RL на наборе ревордов.

Результаты

Благодаря "видеоцентричному" обучению, модель умеет:
- Long-horizon generation: генерит длинные, согласованные во времени и семантически связанные последовательности из текста и изображений.
- Visual Narrative: историй с иллюстрациями на открытые темы (наука, история, сказки), сохраняя консистентность персонажей и стиля.
- Visual Guidance: генерация пошаговых визуальных инструкций (например, как приготовить блюдо или собрать что-то), где каждый шаг сопровождается релевантным изображением.
- World Exploration & Embodied Manipulation: способность моделировать виртуальные миры и взаимодействовать с ними (модель может перемещаться по сцене по текстовым командам).

В стандартных задачах генерации и редактирования Emu3.5 показывает производительность на уровне лучших закрытых моделей, таких как Gemini 2.5 Flash Image (Nano Banana).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥81👏1
Несколько свежих работ по теме с фокусом на генерацию и редактирование картинок.

1. Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
[код, данные]

Современные методы генерации изображений с использованием CoT обычно встраивают рассуждение либо до генерации (планирование), либо после (пост-редактирование). Авторы этой работы предлагают текстовые рассуждения перемежать с процессом генерации изображения. С помощью хитрых инструкций модель заставляют сначала декомпозировать, а потом последовательно усложнять промт для генерации так чтобы в итоге качество генерации улучшалось.

В целом, логичная идея — перенести парадигму interleaved reasoning из текстовых LLM (где она уже стала стандартом) в визуальную генерацию. Вместо "выстрелил и забыл", модель постоянно сверяется с замыслом и правит работу в процессе, понятно почему это даёт буст качества.

2. Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
[код]

Авторы конструируют набор хитрых промтов для T2I генерации, требующих не шибко хитрый, но все же ризонинг (“Нарисуй столько яблок, сколько будет 8/4”). Далее показывают, что современные мультимодалки (BAGEL) не особо справляются с такими промтами из коробки. При этом, если чуть поризонить и найти решение (“Нарисуй 2 яблока”), то качество генерации существенно вырастет. Дальше удачные цепочки можно собрать и дообучить на них модель.

В целом, работа обсуждает утвердждение о том, что ”понимание" в мультимодальных моделях автоматически перетекает в "генерацию". По умолчанию — не перетекает. Генератор остается глупым исполнителем, пока мы явно не заставим его подумать через CoT или не вошьем эти паттерны через специальное обучение.

3. MIRA: Multimodal Iterative Reasoning Agent for Image Editing
[код, данные]

Yet another работа с использованием внешней VLM для последовательного улучшения эдитинга (loop: state → multimodal reasoning → action → environment feedback). Цепочки собрали в датасет 150к семплов, а дальше обучили на этом SFT + GRPO для получения end-to-end ризонера. Чем отличается от прошлых работ вроде Reward-Agnostic Prompt Optimization? Тем что задача редактивования, а не T2I и тем что вызов внешней VLM назвали агентным подходом.
👍8🔥31
За последние пару недель вышло несколько новых мультимодалок. Разберем детали, отличающие их от предшественников:
- Вводный пост
- Продолжение вводного поста
- Про проблемы с мультимодалками
- Подборка 1
- Подборка 2
- Подборка 3

Было еще несколько постов про отдельные модели, которые также можно без трудна найти в канале.

1. FLUX.2: Frontier Visual Intelligence
[оф пост с ссылками на код/веса]

Во второй версии авторы из BFL заслейлили всё что можно было заскейлить:
- 32В DiT денойзер с немного измененным соотношением single/double stream блоков.
- Mistral Small 3.1 (24B) в качестве текстового энкодера.
- Новый VAE, про который утверждается, что получен оптимум по reconstruction/diffusability (пост про то что это такое).

Из скудной инфы представленной в посте мы также знаем, что для эдитинга теперь поддерживается несколько картинок-условий, а еще сделано несколько технических трюков для удобства инференса. Тем не менее, даже с 4-bit квантизацией для инференса нужно 2х80g GPU, что навевает тень сомнения на широкое использование модели в ресерч сообществе.

2. Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
[код/веса, пока только T2I]

Авторы из Alibaba идут против тренда "scale-at-all-costs”. Вместо наращивания десятков миллиардов параметров (как у Hunyuan-3.0 или FLUX.2) авторы представляют эффективную 6B foundation model, которая конкурирует с ними по качеству, но требует в разы меньше ресурсов (на инференсе лезет в консьюмерскую 16Gb GPU).

По данным любопытно, что, помимо и так всеми использующихся фильтраций, авторы заморочились со стратификацией концептов, сделав балансировку на основе дерева знаний Википедии.

По архитектуре сделали вариант MM-DiT, утверждается, что более эффективный. В остальном стандарные Qwen3 (4B) в качестве текстового энкодера c SigLip-2 для дискриминативного и FLUX VAE для генеративного кодирования картинок. Следуя общим трендам, отдельным модулем обучают 6B переписывалку входных промтов.

Обучение довольно стандарное в несколько стадий с увеличением разрешения и SFT + DPO + GRPO + дистилляцией в 8 шагов в конце. В открытый доступ пока что выложен только T2I дистилл.

3. MammothModa2: A Unified AR–Diffusion Framework for Multimodal Understanding and Generation
[код, веса]

Еще одна мультимодалка от ByteDance. На этот раз Qwen-Image-like архитектура с отдельной ~2B FM single-stream DiT головой и тушкой в виде Qwen3-VL-8B.

Любопытной показалась схема обучения: на претрене сначала учат чисто T2I в 512, потом T2I + I2I в 1024 (данные по задачам смешивают внутри одного батча), VLM заморожена всю дорогу.

По данным интересно, что в претрене всего 37М семплов эдитинга, причем почти половина из них — редактирование китайского текста, а почти всё остальное — опенсорс данные (разбирали основные тут).
👍4🔥2
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
[код и данные]

Авторы из Shanghai AI Lab сделали Envision — бенчмарк для оценки способности мультимодальных моделей понимать и генерировать динамические причинно-следственные процессы.

Основной тезис: современные T2I и UMM (Unified Multimodal Models) хороши в генерации статичных картинок (pattern matching), но проваливаются, когда нужно смоделировать процесс (world modeling).

Бенчмарк фокусируется на задаче Text-to-Multi-Image (T2MI): генерации последовательности из 4 изображений, описывающих развитие события (например, химическая реакция или историческое событие).

Данные:

Вместо простых промптов Envision использует структурированные сценарии (1000 сценариев, 4000 промптов), основанные на реальных знаниях из учебников и энциклопедий.
- Домены: 6 областей (Физика, Химия, Биология, География, Метеорология, Культура/История). Это проверяет "internalized world knowledge".
- Causal Structure:
* Continuous Causality: Непрерывные процессы (например, маятник), требующие соблюдения законов сохранения и плавности переходов.
* Discrete Causality: Дискретные события с большими скачками во времени (например, эволюция или исторические эпохи), требующие абстрактного логического связывания.
- Prompt Structure: Каждый сценарий — это JSON с 4 шагами: [Initial State] -> [Early Interaction] -> [Progressive Transformation] -> [Final Resolution]. Это заставляет модель строить *causal narrative arc*, а не просто 4 независимые картинки.

Метрика и Метод Оценки

Авторы вводят Envision-Score, который агрегирует 3 измерения (9 суб-метрик). Оценка производится с помощью GPT-4o (VLM-as-a-Judge), выбранного после валидации с людьми-экспертами (PhD).
1. Consistency (40%):
* Spatio-Temporal: Логика движения и изменений во времени (не телепортируются ли объекты?).
* Semantic & Factual: Соответствие промпту и научным фактам.
2. Physicality (40%): Самое важное.
* Basic Properties: Сохранение количества и формы объектов.
* Dynamics: Реалистичность движения и взаимодействий (столкновения, жидкости).
* Physical Reliability: Соблюдение фундаментальных законов (гравитация, термодинамика).
3. Aesthetics (20%): Визуальное качество и аутентичность.

Результаты

Сравнили 15 моделей: специализированные T2I (SD3.5, FLUX), UMM (Emu3, Janus-Pro, Qwen-Image) и закрытые (GPT-4o, Gemini).

- Open-Source T2I (FLUX): Отличная эстетика (Aesthetics), но провал в физике и логике (Physicality ~50/100). Они генерируют красивые, но "глупые" картинки без понимания процесса.
- UMMs (Emu3, Seedream): Немного лучше понимают контекст и факты благодаря мультимодальной природе, но все еще слабы в динамике.
- Closed-Source (GPT-4o): Тотальное доминирование. GPT-4o набирает >70 баллов по физике и консистентности, в то время как open-source отстает на 10-20 пунктов.
- Understanding-Generation Paradox: Модели могут правильно отвечать на вопросы по физике (в текстовом режиме), но не могут сгенерировать правильную последовательность кадров для этого же процесса. Это доказывает, что "понимание" и "генерация" в текущих UMM разорваны.

Вывод

Envision показывает, что текущая paradigm shift в сторону UMM пока не решила проблему "world modeling". Модели всё ещё занимаются статичным сопоставлением паттернов, а не симуляцией мира. Для прогресса нужно переходить от обучения на парах "картинка-текст" к обучению на видео и причинно-следственных последовательностях (что перекликается с выводами статьи про Emu3.5). Больше всего смутил акцент на победе GPT-4o при том что она же использовалась в качестве модели-судьи. Убедительнее выглядят высокие скоры Gemini, что, в прочем, не удивительно.
👍4🔥1