NEW BOT Телеграм, страница

📎

Phi-4-Multimodal - модель, которая может понимать картинки, речь и текст одновременно

1️⃣ Microsoft в начале марта выложили в открытый доступ серию моделей и поделились подробным техническим деталями в статье. Phi-4-Multimodal может одновременно обрабатывать картинки, текст и аудио. Релиз прошел совсем тихо и почти никто про эти модельки не говорит. На мой взгляд зря, получилось очень интересно.

2️⃣ Сначала сухие факты

⏺️Модель Phi-4-multimodal, лицензия MIT, веса на HF

⏺️На вход умеет принимать текст, речь или картинки - суммарный контекст 128,000 токенов. На выход текст (0.34 секунды до первого токена, throughput 26 t/s)

⏺️Размер 5.6B параметров, все в BF16, 3.8B из этих параметров идут от бэкбона Phi-4-mini, остальные параметры от обучаемых энкодеров для картинок и аудио, и LoRA адаптеров - об этом подробнее дальше.

⏺️На text-vision бенчмарках обходит Qwen2.5-VL-3B, Claude 3.5 Sonnet, and GPT 4o-mini

⏺️На vision-speech бенчмарках выше Gemini-2.0-Flash

⏺️В транскрипции речи в текст согласно репорту выше всех аналогов.

3️⃣ Подробнее про устройство модели.

Бэкбоун всего решения - 3.8B текстовая LLM Phi-4-mini. Ее тоже выложили и есть отдельная instruct версия под MIT лицензией. Модель очень шустрая и маленькая - отлично подходит для файн-тюнов на своих данных под конкретную задачу. Именно файн-тюнов. Из коробки few-shot prompting и обобщающие способности очень слабые - убедился в этом сам на своих бенчмарках по разным доменным задачам - до gpt 4o mini / claude 3.5 haiku и других mini версий как до луны - может поэтому релиз и прошел мимо.

4️⃣ Теперь про мультимодальность.

Аудио энкодится через Conformer модель (сверточная сеть + трансформер) и дополнительную проекцию пространство токенов базовой текстовой LLM. Изображения энкодятся через vision transformer SigLIP-400M и так же проекцию в пространство токенов текстовой модели. Таким образом, благодаря projection слоям все модальности можно представить в одном пространстве. Как показано на рисунке 1.

Наконец, чтобы все модальности “уживались” друг с другом, в трансформер слои Phi-4-mini добавлены LoRA адаптеры, один для аудио (460M), другой для картинок (370M). И в итоге forward на инференсе выглядит как последовательное применение базовых весов и адаптеров, показано на рисунке 2. Коротко Обучение происходит в несколько стадий: 1) обучение vision части 2) обучение аудио части 3) joint обучение на обеих модальностях.

5️⃣ В итоге получается элегантная модель, которая может и в понимание картинок, и в ASR, и в vision-to-audio understanding, и многие другие задачи вокруг этих модальностей. Да, обучение для каждой стадии непростое (много деталей есть в статье), и требует много данных, но инференс выглядит максимально бесшовным и нативным.

Плюс, такой подход позволяет распараллеливать рисерч команды в большой лабе, где люди работают над разными направлениями. Одна команда улучшает foundation model, тогда как другие накручивают свои модальности и и пользуются базовой моделью, как универсальным источником знания о мире. Как раз про движение в эту сторону, в контексте мультимодальности не только картинок и текста (так делают уже все), но и добавления аудио/речи, и микс этого всего, рассуждал недавно в подкасте ко-фаундер 11Labs здесь (кстати, офигенный выпуск)

Please open Telegram to view this post