The Layer – Telegram
The Layer
889 subscribers
113 photos
10 videos
4 files
84 links
Канал команды компьютерного зрения Layer, R&D Department, SberDevices
Download Telegram
Audio
Последнее время стало модно пихать в LLM всё, что пихается. А что не пихается – забивать ногами.
Почему бы и да, ведь часто хорошо работает.

Но всё равно каждый новый день умудряется удивить.
В этот раз в LLM запихали музыкальную ABC нотацию 🎸

Работа называется ChatMusician.
We introduce ChatMusician, an open-source LLM that integrates intrinsic musical abilities. It is based on continual pre-training and finetuning LLaMA2 on a text-compatible music representation, ABC notation, and the music is treated as a second language. ChatMusician can understand and generate music with a pure text tokenizer without any external multi-modal neural structures or tokenizers.


Уверяют, что:
Interestingly, endowing musical abilities does not harm language abilities, even achieving a slightly higher MMLU score.

😳

На сайте по ссылке можно послушать примеры, но мне больше всего понравился прикрёплнный к посту.
Есть даже некоторое эпическое развитие сюжета.

Обратите внимание, как выглядит вход – задаётся структура:
Text Input:
Develop a composition by incorporating elements from the given melodic structure.

Musical Form Input:
Ternary, Sectional: Verse/Chorus/Bridge


Данные и модели выложили.
Please open Telegram to view this post
VIEW IN TELEGRAM
6🤩2👍1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Пятничное 🪩🥳

В Photoshop тоже есть генеративная нейросеть - Adobe Firefly.
В интернете есть много чудесных удачных примеров её работы, но, всё-таки, это генеративная модель, а значит совсем не всегда всё получается так, как задумано 😅
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12
Интересная работа MoAI: Mixture of All Intelligence for Large Language and Vision Models по теме больших мультимодальных нейросетей.

Высокоуровневно: в компьютерном зрении исторически накоплено много крутых специализированных моделей, которые до сих пор в части областей выносят даже огроменные мультимодальные нейросети. Почему бы всё это тогда просто не объединить? Всё равно там в скорости терять уже нечего 😳

В общем, авторы берут сильные модели из следующих областей: panoptic segmentation (instance + semantic сегментация изображения), open-world object detection (обнаружение объектов без предварительно заданных классов), scene graph generation (создание графа сцены, описывающего взаимосвязи между объектами на изображении) и OCR (распознавание символов). Конкретные модели приводить не буду, они подробно расписаны в разделе 4.
Главное – суммарно все веса спец. моделей составляют 332кк, т.е. мелочи на фоне LLM.

Чтобы всё это сварить вводят два новых модуля: MoAI-Compressor и MoAI-Mixer.
MoAI-Compressor сжимает информацию, поступающую от специализированных моделей. Её перед этим предварительно вербализируют, по сути, приводят к естественному языку (отдельная возня с сегментацией, там кодируют также и всю карту).
MoAI-Mixer смешивает всю поступающую информацию (экспертную, визуальную и языковую) при помощи 6 модулей-экспертов. Почему 6? Процитирую:
Specifically, MoAI facilitates pairs of (1) visual-auxiliary feature, (2) visual-language feature, (3) visual-visual feature, (4) language-auxiliary feature, (5) language-visual feature, and (6) language-language feature. Each pair is considered as a query-key pair for a respective cross- or self-attention module serving as experts, clarifying the fusion of information across diverse modalities.

Примечательно, что на этапе тренировки разморожены только эти два модуля.

Ну и, в конечном счёте, всё попадает в MLLM уже стандартной архитектуры, в которой визуальный энкодер это CLIP-L/14, а LLM – мультиязыковая InternLM-7B.

Результаты, с учётом размера модели 🔥
Код тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥62🗿1
OpenAI: Мы не раскроем ни единой детали о GPT-4!

Дженсен Хуанг (NVIDIA CEO) на GTC: ...как вы знаете, GPT-4 имеет 1.8 триллиона параметров...

😁
😁14🤣8🙉4
Классная статья по диффузионным моделям – ELLA

Общий смысл: в качестве текстового энкодера для диффузионок всё ещё часто используется модель из CLIP'а. Создавался CLIP для других задач - сопоставления изображений и короткого текста, а потому длина контекста ограничена 77 токенами, да и соображалкой модель не блещет.
Из-за этого людям приходится мучаться с тегами и промптами, которые очень специфичны и не всегда следуют человеческой логике. Все вот эти "8k, dslr...".
Хорошо было бы иметь умную LLM и свести дизайн промпта к простым правилам. Этим многие сейчас занимаются, но в данной конкретной работе один из самых интересных подходов.

Центральная вещь в исследовании – это адаптер между LLM и генеративной моделью, который называется Timestep-Aware Semantic Connector (TSC) См. схему.

Зачем он такой сложный? Есть статьи, которые показывают, что диффузионные модели при восстановлении (генерации) изображения из шума сначала фокусируются на низкочастотном содержимом (основные формы, структуры, контуры), а на высокочастотном уже на более поздних этапах (листья, травинки, элементы одежды).
Поэтому, в модуле TSC в AdaLN слои (из DiT) интегрирован временной шаг диффузионной модели, что позволяет извлекать адекватные ему семантические запросы (queries), а не всё сразу. Дальше, конечно, эти запросы идут через cross-attention в Unet, задавая условие генерации.

Очень крутая и логичная идея. Авторы доказывают экспериментально, что другие коннекторы работают хуже: пробуют MLP и разные вариации Perceiver Resampler из Flamingo.
Приятно и то, что ничего, кроме коннектора тренировать не нужно. Его размеры, в зависимости от вариации StableDiffusion, на основе которой пайплайн строится, могут быть от 60кк (SD1.5) до 470кк (SDXL) параметров.
В работе создают, также, свой небольшой (1.065 примеров), но таки бенчмарк – Dense Prompt Graph Benchmark (DPG).

Экспериментируют с разными LLM: TinyLlama, LLaMA-2, T5-XXL. На всех результаты 🔥 и сильно лучше клипа. Для сравнения, на DPG бенчмарке у CLIP 63.18 очков, у LLaMA-2 72.05.
👍9🔥4
В эту пятницу, 5 апреля, в Москве пройдёт конференция нашего управления - Giga R&D Day.

От нашей команды выступит Марина Бессмертная с докладом:
Тихо! Сейчас будет та самая сцена: как автоматически находить цепляющие моменты в видео.

Проект совершенно потрясающий, приглашаем всех послушать.

Если есть возможность, рекомендую приходить оффлайн (количество мест ограничено). Но можно посмотреть и онлайн.
Участие бесплатное.
🔥86❤‍🔥2
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла одна из двух фичей, про которые я писал — редактирование изображений в DALL-E 3.

Теперь можно точечно выбирать, какие части изображения хочется перерисовать, и что именно туда добавить — и всё это не ломая невыделенную часть изображения.

Опять же, такое давно можно было делать с открытыми локальными моделями (и в некоторых AI-онлайн-редакторах тоже), так что ничего инновационного.

Пробовать надо в отдельном чате с DALL-E 3 по вот этой ссылке.
🔥4👍3👏1
Минутка медицины 💊

Здоровье - это очень важно. И совершенно естественно, что с тех пор, как алгоритмы машинного обучения стали достаточно точными, их всевозможными образами пытаются примотать скотчем к медицине. Начинали, конечно, ещё с чистого компьютерного зрения (в разделе Reader Study есть сравнение с людьми) и всяких разных снимков. Хотя были и робкие попытки диагностики. Тогда, в целом, самый здравый вывод из исследований звучал примерно так: нейросети уже лучше плохих врачей, но хуже хороших.

А потом была пандемия 🦠 и скачкообразный рост всего связянного с медициной. Так что, вероятно, этот тезис был лишь ещё больше усилен. Развивались все области машинного обучения – что там только не проворачивали, COVID-19 даже по звуку кашля определяли (тема развивается теперь и вне ковида).

С резким ростом способностей и популярности LLM ассистентов, естественно, не пришлось долго ждать и их применения к домену 🏥
Например, не так давно наш GigaChat сдал экзамен на врача, существует и целый легион открытых англоязычных моделей: BioMedGPT, ClinicalGPT, medAlpaca, etc.
И вот недавно наткнулся на BioMistral. В статье по метрикам 🌿 среди открытых и есть демка, поэтому решил попробовать. В целом, работает неплохо и лично мне понравилось.

Однако, обнаружил интересную особенность.
Я решил пробовать что-то несложное и собрал просто таки провокационный промт, с максимально специфичными для бактериальной пневмонии симптомами:
Let's assume that a certain patient has the following symptoms:
- High temperature that does not depend on the time of day and has been persistent for the 7th day. It is poorly reduced by drugs.
- Almost no cough, but when present, it is productive with green sputum.
- One side of the chest lags behind the other during breathing.
- The patient feels localized pain during deep inhalation.

Answer with a list of the diseases from more likely to less likely that could cause such a clinical picture, in format [Disease1 (probability %), Disease2 (probability %), ...]. Probability should represent your inner confidence in the diagnosis based on the information provided.


И ChatGPT3.5, ChatGPT4 и Gemini Advanced отвечают очень похоже (и в соответствии с ожидаемым). Вот ответ ChatGPT4:
Bacterial pneumonia (80%), Pleural effusion (60%), Empyema (50%), Lung abscess (40%), Pneumothorax (30%)

В то время, как BioMistral:
COVID-19 (95%), Acute Pericarditis (40%), Pleural Effusion (35%), Chronic Lung Disease (30%), Pneumonia (25%), Heart Attack (20%)

Очень часто при любом упоминании кашля и температуры в ответ COVID-19 на первом месте, а иногда вообще только он.

Ещё более удивительно, что модель общего назначения, на которой BioMistral основан – Mistral 7B Instruct v0.1, отвечает более верно (т.е. без ковида и ответы близки к тем, что у ChatGPT выше).
Возможно ли, что проблема кроется в факте претрейна на датасете Pubmed (или SFT с участием PubmedQA)?
Не знаю, какая там статистика, но вполне было бы объяснимо, если датасеты отражают реальный информационный перекос по этой теме.

Тем не менее, в целом работа🔥 Это важная и нужная тема.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13
Highlights.pdf
10.7 MB
Публикуем обещанную презентацию с выступления.
Запись самого выступления будет опубликована на следующей неделе⚠️
🔥12
Ответим расширенно на два заданных вопроса по проекту поиска моментов в видео, т.к. Марине не хватило времени оффлайн.

1. Можно ли использовать LLM подход для детекции моментов. Например, при помощи подхода из Large World Models.

Да, конечно. Но данная конкретная модель решает совсем другие задачи и с поиском моментов не справляется.
Кроме того, авторегрессионный 7B трансформер из World Model находится в противоположной весовой категории с нашим энкодерным трансформером на 12.5М параметров.

Если же рассуждать теоретически, про какие-то другие бейзлайны или разработку своего, то главными препятствиями на пути будут два факта: недостаток подходящих данных и, всё также, вычислительный бюджет.
Видео - безумно дорогой и тяжёлый формат и наше решение призвано хотя бы немного компенсировать этот факт, т.к. разрабатывалось для промышленного применения.

В общем, по сути, тут тот же выбор с теми же плюсами и минусами, что и в случае специализированных моделей vs MLLM. Мы как раз недавно исследовали этот вопрос (пост первый, пост второй).

2. А вы не пробовали тренироваться при помощи данных из Youtube? Огромная выборка уже размечена с наиболее популярными кусками, где кликают и пересматривают. Если убрать рекламу, где все перелистывают, останется самое интересное.

Какое-то время назад очень хотели и надеялись на этот вариант. К сожалению, при углублённом изучении вопроса он отпал. Это очень шумная разметка, там дело далеко не только в рекламе. Факторов множество. Например, зрители прыгают по топикам, которые сами авторы разметили в своём видео и создают ложные волны хайлайтов, или пересматривают те участки, где что-то объясняется, но не показывается, или объясняется и показывается, но что-то сложное, что требуется смотреть много раз, или пересматривают участок, где неразборчивая речь. В общем, почему люди только не перематывают. Что-то из этого можно вычистить, но не всё, и получить чистые результаты пока показалось малоперспективным.
94
PixArt-Σ – это открытая DiT (Diffusion Transformer) модель для задач создания изображений по тексту (текстовый энкодер аж Flan-T5-XXL, c 11.3B параметров), способная генерировать в 4K.

Модель анонсировали ещё в начале марта, но только самом конце месяца выложили трейн и инференс код, а сегодня, наконец, подъехали и веса для PixArt-Σ-1024.

Github тут 🚀
Статья тут 📖
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10
Вышла интересная работа по удалению и добавлению объектов на фото: https://objectdrop.github.io/

Преимущества
- простой и элегантный подход к сбору данных
- хорошие результаты на двух противоположных задачах
- понятно написанная статья
- указаны детали обучения

Недостатки
- некорректные сравнения с моделями, решающими другие задачи и имеющими совсем другие ограничения
- в задаче добавления объекта нет сравнений с подходящими моделями
- нет кода, весов и датасета

Удаление объектов
Рассмотрим пример со стаканом охлаждённого чая на гранитном столе (первое изображение). Чтобы реалистично удалить стакан с фотографии, нужно ещё избавиться от его тени и отражения на поверхности стола.

Мы хотим, чтобы пользователь указывал только маску или контуры объекта, а модель автоматически удаляла все проекции объекта со всех поверхностей. Существующие методы удаления объектов (object removal/inpainting) с этим не справляются, удаляя только ту часть, которая находится непосредственно внутри маски. Можно отдельно удалить тени, но для этого нам потребуется сегментационную маска тени, да и отражения никуда не денутся.

Авторы придумали элегантное решение, как без особых модификаций существующей модели, решить такую задачу. Основная идея - не пытаться по существующим данным выучить механизм создания теней и отражений, а просто собрать небольшой датасет реальных фотографий для целевой задачи. Оказалось достаточно (всего!) 2500 фотографий сцен с объектом и без него, оба фото идентичны, сняты на статичную камеру при одинаковом освещении и с тем же фоном, отличаются лишь наличием объекта. На самом деле даже с 1000 фото заметны улучшения!

Перейдём к обучению ObjectDrop’а, авторы берут предобученную латентно-диффузионную модель inpainting’а (похожую на SDXL), на вход подают зашумленное латентное представление фотографии без объекта, обуславливают фотографией с объектом, маской объекта, пустым текстовым промптом и учат убирать шум.

Дообучение на собранном датасете сильно улучшает несколько автоматических метрик (таблица 2), а финальная модель людям нравится намного больше, чем Emu Edit и MGIE (таблица 3). Кроме этого, и для модели SD Inpainting v1 дообучение на ObjectDrop датасете даёт заметное улучшение (таблица 5). Качество замеряли на своём отложенном датасете неизвестного размера и на датасете Emu Edit из 264 примеров.

Ниже пример сравнения с MGIE и Emu Edit. Стоит отметить, что этим моделям не нужна маска объекта, они понимают текстовые инструкции, причём они умеют не только удалять объект, но и ещё по-всякому редактировать фото, например, изменять объекты или время года. Для ObjectDrop авторы получили маски по тексту с помощью SegmentAnything.

И ещё сравнение с базовой моделью: в нём второй и третий пример, на мой взгляд, странные, и у меня есть подозрение, что авторы указали силу закрашивания 0.99 вместо 1, поэтому SDXL Inpainting модель видит часть изображения под маской и может не удалить объект, а сгенерировать что-то с учётом этой части изображения.
👍6🔥1
Добавление и передвижение объектов

Перейдём к более интересным задачам - добавлению и перемещению объектов на фотографии. Подробнее остановимся на добавлении, потому что перемещение - это просто удаление объекта из одной части фотографии, что мы уже умеем делать, и добавление его в другую часть.

Начнём снова с примера. Добавим на фотографию собаку. Фото слева выглядит нереалистично только из-за того, что у неё нет тени.

Как раз эту задачу авторы и решают: они учат модель добавлять тени и отражения к вставленному объекту. Сам объект почти не меняется: то есть тени от сцены на объект не добавятся и гармонизации не будет.

Из плюсов - объект остаётся почти неизменным, то есть модель его не пытается перерисовать. Из недостатков - нужно вручную вырезать объект, отрегулировать его размер, расположение на сцене, прогнать через авторскую модель и самостоятельно сделать гармонизацию. Кроме того, объект должен идеально вписываться в сцену: кривые края останутся кривыми, а пересечения с другими объектами на сцене не предусмотрены.

Чтобы обучить такую модель, нам нужно исходное реальное изображение с объектом и такое же, только без теней и отражений объекта.

2500 фотографий хватает, чтобы научиться удалять объект, но для вставки объекта этого недостаточно. Поэтому авторы сгенерировали ещё 350к изображений: с фотографии удалили объект, его тени и отражения, оставив сцену без объекта, и приклеили этот же вырезанный объект на полученную сцену. На этих изображениях они дообучили латентно-диффузионную модель так же, как модель для удаления объектов, только теперь они подают на вход зашумленное латентное представление реальной фотографии с объектом, обуславливают фотографией сцены с приклеенным объектом без тени и отражений, маской объекта, пустым текстовым промптом и учат убирать шум. Для дальнейшего улучшения качества авторы дообучили модель и на реальных 2500 парах фотографий из своего нового датасета.

Качество замеряли на 51 примере с известными входными и выходными изображениями, а также на 50 out-of-distribution примерах, где передвигали большие объекты, которых не было в тренировочном датасете. По всем автоматическим метрикам и предпочтению людей модель оказывается лучше, чем AnyDoor и Paint-by-Example.

На мой взгляд, сравнение странное, потому что AnyDoor и Paint-by-Example принимают картинку с объектом, без идеальной маски, в произвольном положении и произвольного размера и перерисовывают его в нужном виде, учитывая пересечения с другими объектами (пример работы Paint-by-Example показан на картинке с кедами, игрушкой и футболкой). Как и в задаче удаления объектов, авторы сравнились с моделями, решающими более широкие и сложные задачи. Кроме того, и на вход эти модели принимают совсем другие, более простые для пользователя вещи. Честнее и полезнее было бы сравниться с методами генерации теней, особенно учитывая то, что авторы мельком упоминают некоторые из них.
🔥62