Изначально текст писался для нашего паблика, но постепенно он вылез за пределы формата Телеграма и пришлось заливать на Habr😅
В общем, TL;DR:
Наткнулся на серию интересных научных статей по теме защиты работ художников от генеративных сетей. Вероятно, это не самая обсуждаемая тема, хотя для многих людей развитие нейросетей стало уже сейчас, без преувеличения, катастрофой.
В одной из работ есть весьма любопытный опрос профессиональных художников и там всё весьма сурово: достаточно сказать, что 78% авторов ожидают, что ИИ повлияет на их трудоустройство, а 77% оценивают качество копирования стиля человека нейросетью как хорошее или очень хорошее.
Разбираю в посте очень высокоуровнево два подхода, разработанных для защиты работ от использования в генеративных моделях. Второй (Nightshade) особенно интересен - сгенерировав с его помощью всего от 25 сэмплов, можно успешно атаковать модель (в контексте авторов - защитить работы). При условии, конечно, что они в трейнсет модели попадут, например, в процессе веб-скрейпинга. И мы говорим, если что, о сетях, у которых размеры трейнсетов начинаются на сотнях миллионов примеров, а обычно речь о миллиардах. С учётом, как всё это собирается и чистится в случае открытых данных (частенько примерно никак ), подобные тулы могут представлять существенную угрозу в будущем и будут стимулировать очень серьёзно подходить к фильтрации данных.
Больше деталей в фулле: https://habr.com/ru/articles/785088/
В общем, TL;DR:
Наткнулся на серию интересных научных статей по теме защиты работ художников от генеративных сетей. Вероятно, это не самая обсуждаемая тема, хотя для многих людей развитие нейросетей стало уже сейчас, без преувеличения, катастрофой.
В одной из работ есть весьма любопытный опрос профессиональных художников и там всё весьма сурово: достаточно сказать, что 78% авторов ожидают, что ИИ повлияет на их трудоустройство, а 77% оценивают качество копирования стиля человека нейросетью как хорошее или очень хорошее.
Разбираю в посте очень высокоуровнево два подхода, разработанных для защиты работ от использования в генеративных моделях. Второй (Nightshade) особенно интересен - сгенерировав с его помощью всего от 25 сэмплов, можно успешно атаковать модель (в контексте авторов - защитить работы). При условии, конечно, что они в трейнсет модели попадут, например, в процессе веб-скрейпинга. И мы говорим, если что, о сетях, у которых размеры трейнсетов начинаются на сотнях миллионов примеров, а обычно речь о миллиардах. С учётом, как всё это собирается и чистится в случае открытых данных (
Больше деталей в фулле: https://habr.com/ru/articles/785088/
Хабр
Как художники за рабочие места с ИИ борются
Громоподобный шаг научно-технического прогресса слышен издалека: сквозь года до нас доносится эхо шагов из будущего. Шрамы ран, полученных в предыдущие промышленные революции, априорные, переданные...
🔥8👍3
Аж 4 дня, как вышла LMM LLaVA-1.6, а времени написать о ней всё не было. А есть о чём.
Самое главное и долгожданное мной изменение, это то, что авторы называют Dynamic High Resolution – способ работы с изображениями произвольного размера на вход. Дело в том, что оригинальной работе и в версии 1.5 использовалось фиксированное разрешение (224х224 и 336х336), но это было не от хорошей жизни. Тоже самое и в большинстве альтернативных подходов.
При этом, с самого начала не скрывалось использование динамического метода в ChatGPT-V, что понятно хотя бы даже из пояснений к прайсингу. Преимущества для работы с деталями, небольшими объектами и текстом очевидны, и поэтому вопрос перехода к чему-то подобному был делом времени.
В общем, вот как авторы LLaVA это решают: они берут CLIP-ViT-L-14 и разбивают в соответствии с заданными схемами изображение на кусочки по 224х224 (что интересно, у ChatGPT разбивается на 512x512), которые процессят независимо энкодером. Параллельно, по-старинке, процессят и изображение целиком. Последнее нужно для передачи глобального контекста, а так же, чтобы компенсировать артефакты первого. В аппендиксе статьи показано на метриках, что это играет существенную роль.
Затем всё вместе загоняют в LLM.
Поскольку сетки разбиения предопределены, максимальное разрешение ограничено размерами 672x448 или 448x672.
Есть, также, ряд других улучшений и, по итогу, LLaVA-1.6 в версии 34B перформит соизмеримо с коммерческими моделями: умудрилась на нескольких бенчмарках даже обойти ChatGPT-V, на большей части Gemini Pro (предпоследняя по мощности модель от Google) и на всех представленных Qwen-VL-Plus (от Alibaba). Детальнее можно посмотреть на сайте или в обновлённой статье LLaVa-1.5.
Результаты для открытой сети с доступным трейн кодом совершенно ошеломительные и круто задрайвят развитие области.
Демка тут.
Самое главное и долгожданное мной изменение, это то, что авторы называют Dynamic High Resolution – способ работы с изображениями произвольного размера на вход. Дело в том, что оригинальной работе и в версии 1.5 использовалось фиксированное разрешение (224х224 и 336х336), но это было не от хорошей жизни. Тоже самое и в большинстве альтернативных подходов.
При этом, с самого начала не скрывалось использование динамического метода в ChatGPT-V, что понятно хотя бы даже из пояснений к прайсингу. Преимущества для работы с деталями, небольшими объектами и текстом очевидны, и поэтому вопрос перехода к чему-то подобному был делом времени.
В общем, вот как авторы LLaVA это решают: они берут CLIP-ViT-L-14 и разбивают в соответствии с заданными схемами изображение на кусочки по 224х224 (что интересно, у ChatGPT разбивается на 512x512), которые процессят независимо энкодером. Параллельно, по-старинке, процессят и изображение целиком. Последнее нужно для передачи глобального контекста, а так же, чтобы компенсировать артефакты первого. В аппендиксе статьи показано на метриках, что это играет существенную роль.
Затем всё вместе загоняют в LLM.
Поскольку сетки разбиения предопределены, максимальное разрешение ограничено размерами 672x448 или 448x672.
Есть, также, ряд других улучшений и, по итогу, LLaVA-1.6 в версии 34B перформит соизмеримо с коммерческими моделями: умудрилась на нескольких бенчмарках даже обойти ChatGPT-V, на большей части Gemini Pro (предпоследняя по мощности модель от Google) и на всех представленных Qwen-VL-Plus (от Alibaba). Детальнее можно посмотреть на сайте или в обновлённой статье LLaVa-1.5.
Результаты для открытой сети с доступным трейн кодом совершенно ошеломительные и круто задрайвят развитие области.
Демка тут.
👍6🔥5👏1
MiVOLOv2.0 уже здесь⚡
Как и раньше, модель можно пощупать в демо на Hugging Face.
А можно прямо тут, в Телеграм боте, которого мы под такое важное событие наконец сделали – @AnyAgeBot!🤖
Основные факты:
- Датасет был расширен на ~30%. Значительная часть дельты состоит из примеров, на которых первая версия ошибалась.
- Много сэмплов из таких сложных и реалистичных источников, как соц. сети или LAION-5B.
- Сильно добалансировали правый хвост распределения возрастов.
- Добавили новые аугментации во время тренировки.
- Появилась новая версия со входным разрешением 384х384, помимо старого 224х224. Оба демо работают с максимальным разрешением.
Рост метрик, в итоге, достаточно значительный. См. комментарии к посту.
Но это ещё не всё. Мы замерили потенциал LMM (Large Multimodal Models) в задаче определения пола и возраста, в т.ч. на ChatGPT и сравнили результаты с MiVOLO. Причём, речь не о просто сборе данных, мы поэкспериментировали с файн-тюном LLaVA.
Результаты вышли настолько интересными, что в скором времени будем писать по этой теме статью-технический репорт.
Как и раньше, модель можно пощупать в демо на Hugging Face.
А можно прямо тут, в Телеграм боте, которого мы под такое важное событие наконец сделали – @AnyAgeBot!🤖
Основные факты:
- Датасет был расширен на ~30%. Значительная часть дельты состоит из примеров, на которых первая версия ошибалась.
- Много сэмплов из таких сложных и реалистичных источников, как соц. сети или LAION-5B.
- Сильно добалансировали правый хвост распределения возрастов.
- Добавили новые аугментации во время тренировки.
- Появилась новая версия со входным разрешением 384х384, помимо старого 224х224. Оба демо работают с максимальным разрешением.
Рост метрик, в итоге, достаточно значительный. См. комментарии к посту.
Но это ещё не всё. Мы замерили потенциал LMM (Large Multimodal Models) в задаче определения пола и возраста, в т.ч. на ChatGPT и сравнили результаты с MiVOLO. Причём, речь не о просто сборе данных, мы поэкспериментировали с файн-тюном LLaVA.
Результаты вышли настолько интересными, что в скором времени будем писать по этой теме статью-технический репорт.
🔥13 5👍3
Forwarded from Kali Novskaya (Tatiana Shavrina)
Media is too big
VIEW IN TELEGRAM
OpenAI только что выпустили SORA— text2video модель
Генерация видео по текстовому описанию наступила!
Сегодня обещают статью
Промпт:
🟣 https://openai.com/sora#research
Генерация видео по текстовому описанию наступила!
Сегодня обещают статью
Промпт:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.Please open Telegram to view this post
VIEW IN TELEGRAM
🤯8🔥3👍1😱1 1
Недавно StabilityAI анонсировали StableDiffusion 3.
Ребята продолжаются придерживаться своей политики открытости и уже пообещали попозже опубликовать модель.
Это здорово само по себе, но, не стоит смотреть на это, только как на исключительно конечный продукт – многие подходы сейчас используют диффузионые модели или их части как модули в составе сложных пайплайнов.
Деталей немного, но говорят, что будет семейство моделей от 800кк до 8ккк параметров. Обещают улучшенную генерацию текста, который сейчас всё ещё составляет проблему. Пример результатов на пикчах к посту.
Под капотом архитектура на диффузионном трансформере (DiT, как замена отпахавшему кучу лет Unet), кстати говоря, также, как и в видео Sora от OpenAI.
Ещё пишут, что использовалась техника flow matching. Так что в сумме можно ожидать повышенной эффективности и производительности.
Сейчас модель в режиме раннего доступа, можно записаться в лист ожидания.
Ребята продолжаются придерживаться своей политики открытости и уже пообещали попозже опубликовать модель.
Это здорово само по себе, но, не стоит смотреть на это, только как на исключительно конечный продукт – многие подходы сейчас используют диффузионые модели или их части как модули в составе сложных пайплайнов.
Деталей немного, но говорят, что будет семейство моделей от 800кк до 8ккк параметров. Обещают улучшенную генерацию текста, который сейчас всё ещё составляет проблему. Пример результатов на пикчах к посту.
Под капотом архитектура на диффузионном трансформере (DiT, как замена отпахавшему кучу лет Unet), кстати говоря, также, как и в видео Sora от OpenAI.
Ещё пишут, что использовалась техника flow matching. Так что в сумме можно ожидать повышенной эффективности и производительности.
Сейчас модель в режиме раннего доступа, можно записаться в лист ожидания.
🔥9👍4🦄3❤1
Если вы активный пользователь больших визуальных (мультимодальных) моделей, таких как Google Gemini или ChatGPT-4V 🗯 , которые принимают на вход не только текст, но и изображение, то вероятно, что вы уже привыкли решать через них множество разных задач.
Используют их в хвост и гриву не только целевые пользователи, но и исследователи: через LVM (они же в нашем контексте MLLM, LMM) чего только не вытворяют: от сегментации объектов до редактирования изображений.
Несмотря на то, что стоимость \ время инференса этих моделей может превышать стоимость специализированных решений в тысячи раз, всё равно это выглядит привлекательно.
Судите сами:
Вместо того, чтобы каждый раз собирать тонну данных, чистить их, исследовать задачу, заниматься бесконечной инженерной работой, не говоря о том, что нужно обладать некоторыми знаниями и опытом, достаточно просто правильно подобрать промт и развернуть модель \ заплатить за API.
Множество стартапов так и живут.
Работает всё иной раз так хорошо, что кажется, что через них можно решить буквально что угодно. С точки зрения науки, тем не менее, не совсем понятно, действительно это уже так или пока ещё вопрос ближайшего будущего. В каких-то задачах данные есть и они говорят, что да, в других задачах выходит, что нет, в большинстве ничего не понятно.
В процессе разработки второй версии MiVOLO мы об этом много думали и экспериментировали. Было интересно, на что уже способны лучшие из MLLM, что можно выжать из них для нашей задачи в максимуме и есть ли вообще ещё смысл в спец. моделях? Ответов накопилось на статью😁 Вчера выпустили препринт:
📖 https://arxiv.org/abs/2403.02302
Используют их в хвост и гриву не только целевые пользователи, но и исследователи: через LVM (они же в нашем контексте MLLM, LMM) чего только не вытворяют: от сегментации объектов до редактирования изображений.
Несмотря на то, что стоимость \ время инференса этих моделей может превышать стоимость специализированных решений в тысячи раз, всё равно это выглядит привлекательно.
Судите сами:
Вместо того, чтобы каждый раз собирать тонну данных, чистить их, исследовать задачу, заниматься бесконечной инженерной работой, не говоря о том, что нужно обладать некоторыми знаниями и опытом, достаточно просто правильно подобрать промт и развернуть модель \ заплатить за API.
Множество стартапов так и живут.
Работает всё иной раз так хорошо, что кажется, что через них можно решить буквально что угодно. С точки зрения науки, тем не менее, не совсем понятно, действительно это уже так или пока ещё вопрос ближайшего будущего. В каких-то задачах данные есть и они говорят, что да, в других задачах выходит, что нет, в большинстве ничего не понятно.
В процессе разработки второй версии MiVOLO мы об этом много думали и экспериментировали. Было интересно, на что уже способны лучшие из MLLM, что можно выжать из них для нашей задачи в максимуме и есть ли вообще ещё смысл в спец. моделях? Ответов накопилось на статью😁 Вчера выпустили препринт:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤4👏1
А тут напишем самую мякотку из результатов:
- В целом большие языковые мультимодальные нейросети мощь и с задачей справляются💪
- ChatGPT лучшая среди и платных и открытых MLLM в задаче возраста, но всё ещё несколько сдаёт MiVOLO. Правда, это если закрыть глаза на то, что она просто отказывается работать с 21% рандомных и совершенно невинных изображений. На которых, скорее всего, показала бы сильно более высокую ошибку. И без учёта кучих других но.
- С полом у ChatGPT как-то неожиданно плохо, причём на эту тему успела незадолго до нашей выйти ещё одна независимая работа. На ещё более реалистичных данных из соц. сетей плохо прямо сильно.
- При ручном анализе мы заметили подозрительно много примеров, где у лиц мужского пола длинные волосы и на которых ChatGPT ошиблась. Выводы стоит попридержать - это просто наблюдение и многое зависит от промта, цепочки рассуждений и пр. Но задуматься точно есть о чём, возможно доигрались с системой безопасности или это особенности данных.
- Свежая LLaVA-NeXT 34B, предсказуемо, лучшая среди открытых по возрасту и просто лучшая по полу (если из коробки)✨. Вообще, почти у всех (💣 ) мультимодалок сильно хорошо с полом. Явно сказывается большее понимание контекста, мира и сложных фичей, чем у спец. моделей.
- При этом, у всех открытых моделей не очень хорошо с возрастом.
- MiVOLO всё ещё тащит, даже без учёта стоимости инференса. Но для спец. моделей всё равно плохая новость – оставшихся конкурентов ChatGPT расщепил бы на атомы.
- А если взять ShareGPT4V (на момент завершения работ тренировочный код для LLaVA-NeXT ещё не появился в доступе) и прямо с оригинальным лоссом натренировать на нашем датасете, то будет гига🌿 на части бенчмарков. Детали в статье.
- В целом большие языковые мультимодальные нейросети мощь и с задачей справляются
- ChatGPT лучшая среди и платных и открытых MLLM в задаче возраста, но всё ещё несколько сдаёт MiVOLO. Правда, это если закрыть глаза на то, что она просто отказывается работать с 21% рандомных и совершенно невинных изображений. На которых, скорее всего, показала бы сильно более высокую ошибку. И без учёта кучих других но.
- С полом у ChatGPT как-то неожиданно плохо, причём на эту тему успела незадолго до нашей выйти ещё одна независимая работа. На ещё более реалистичных данных из соц. сетей плохо прямо сильно.
- При ручном анализе мы заметили подозрительно много примеров, где у лиц мужского пола длинные волосы и на которых ChatGPT ошиблась. Выводы стоит попридержать - это просто наблюдение и многое зависит от промта, цепочки рассуждений и пр. Но задуматься точно есть о чём, возможно доигрались с системой безопасности или это особенности данных.
- Свежая LLaVA-NeXT 34B, предсказуемо, лучшая среди открытых по возрасту и просто лучшая по полу (если из коробки)✨. Вообще, почти у всех (
- При этом, у всех открытых моделей не очень хорошо с возрастом.
- MiVOLO всё ещё тащит, даже без учёта стоимости инференса. Но для спец. моделей всё равно плохая новость – оставшихся конкурентов ChatGPT расщепил бы на атомы.
- А если взять ShareGPT4V (на момент завершения работ тренировочный код для LLaVA-NeXT ещё не появился в доступе) и прямо с оригинальным лоссом натренировать на нашем датасете, то будет гига
Please open Telegram to view this post
VIEW IN TELEGRAM
Ищем стажёра в команду!🦾
Требования:
- Необходимо быть студентом очной формы обучения российского вуза.
- Базовые навыки программирования на Python.
- Базовые навыки работы с командной строкой, Linux и пр. основными тех. инструментами.
- Желательно иметь начальное представление о компьютерном зрении и машинном обучении.
Обязанности:
- Сбор, обработка, фильтрация данных для обучения нейросетей.
- Работа с крауд-сорсом: оформление пайплайнов и заданий.
- Разработка простых скриптов и утилит.
- Работа и эксперименты с моделями.
Условия:
- До 40 часов в неделю с максимально гибким графиком. Можно меньше.
- Возможность удалённой работы по России.
- Корпоративный ноутбук.
- Потенциальная возможность попасть в штат в будущем.
- Оклад и остальные условия в личке.
Заинтересованных прошу написать в личку.
Требования:
- Необходимо быть студентом очной формы обучения российского вуза.
- Базовые навыки программирования на Python.
- Базовые навыки работы с командной строкой, Linux и пр. основными тех. инструментами.
- Желательно иметь начальное представление о компьютерном зрении и машинном обучении.
Обязанности:
- Сбор, обработка, фильтрация данных для обучения нейросетей.
- Работа с крауд-сорсом: оформление пайплайнов и заданий.
- Разработка простых скриптов и утилит.
- Работа и эксперименты с моделями.
Условия:
- До 40 часов в неделю с максимально гибким графиком. Можно меньше.
- Возможность удалённой работы по России.
- Корпоративный ноутбук.
- Потенциальная возможность попасть в штат в будущем.
- Оклад и остальные условия в личке.
Заинтересованных прошу написать в личку.
🔥9👍2
Интересная работа: Hallucination is Inevitable: An Innate Limitation of Large Language Models, доказывающая, что LLM не могут не галлюцинировать по своей природе.
Суть, в общем-то, в выводах:
причём:
Суть, в общем-то, в выводах:
In this paper, we study the fundamental problem of eliminating hallucinations in LLMs. To do so, we define a formal world where hallucination in LLMs can be clearly defined and discussed. Specifically, hallucination is defined as inconsistencies between computable LLMs and a computable ground truth function. By utilizing results in learning theory, we show that hallucination is inevitable for computable LLMs if the ground truth function is any computable function. Since the formal world is a part of the real world, we further conclude that it is impossible to eliminate hallucination in the real world LLMs. Using the formal world framework, we discuss the possible mechanisms and effectiveness of existing hallucination mitigators and discuss practical implications that our theoretical results have on the deployment of LLMs in the real world. We emphasize that since hallucination is inevitable, rigorous study of the safety of LLMs is critical.
причём:
...hallucination is inevitable for any computable LLM, regardless of model architecture, learning algorithms, prompting techniques, or training data.
🤔6🤯3😨1
Audio
Последнее время стало модно пихать в LLM всё, что пихается. А что не пихается – забивать ногами.
Почему бы и да, ведь часто хорошо работает.
Но всё равно каждый новый день умудряется удивить.
В этот раз в LLM запихали музыкальную ABC нотацию 🎸
Работа называется ChatMusician.
Уверяют, что:
😳
На сайте по ссылке можно послушать примеры, но мне больше всего понравился прикрёплнный к посту.
Есть даже некоторое эпическое развитие сюжета.
Обратите внимание, как выглядит вход – задаётся структура:
Данные и модели выложили.
Почему бы и да, ведь часто хорошо работает.
Но всё равно каждый новый день умудряется удивить.
В этот раз в LLM запихали музыкальную ABC нотацию 🎸
Работа называется ChatMusician.
We introduce ChatMusician, an open-source LLM that integrates intrinsic musical abilities. It is based on continual pre-training and finetuning LLaMA2 on a text-compatible music representation, ABC notation, and the music is treated as a second language. ChatMusician can understand and generate music with a pure text tokenizer without any external multi-modal neural structures or tokenizers.
Уверяют, что:
Interestingly, endowing musical abilities does not harm language abilities, even achieving a slightly higher MMLU score.
На сайте по ссылке можно послушать примеры, но мне больше всего понравился прикрёплнный к посту.
Есть даже некоторое эпическое развитие сюжета.
Обратите внимание, как выглядит вход – задаётся структура:
Text Input:
Develop a composition by incorporating elements from the given melodic structure.
Musical Form Input:
Ternary, Sectional: Verse/Chorus/Bridge
Данные и модели выложили.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Пятничное 🪩 🥳
В Photoshop тоже есть генеративная нейросеть - Adobe Firefly.
В интернете есть много чудесных удачных примеров её работы, но, всё-таки, это генеративная модель, а значит совсем не всегда всё получается так, как задумано 😅
В Photoshop тоже есть генеративная нейросеть - Adobe Firefly.
В интернете есть много чудесных удачных примеров её работы, но, всё-таки, это генеративная модель, а значит совсем не всегда всё получается так, как задумано 😅
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12
Интересная работа MoAI: Mixture of All Intelligence for Large Language and Vision Models по теме больших мультимодальных нейросетей.
Высокоуровневно: в компьютерном зрении исторически накоплено много крутых специализированных моделей, которые до сих пор в части областей выносят даже огроменные мультимодальные нейросети. Почему бы всё это тогда просто не объединить? Всё равно там в скорости терять уже нечего😳
В общем, авторы берут сильные модели из следующих областей: panoptic segmentation (instance + semantic сегментация изображения), open-world object detection (обнаружение объектов без предварительно заданных классов), scene graph generation (создание графа сцены, описывающего взаимосвязи между объектами на изображении) и OCR (распознавание символов). Конкретные модели приводить не буду, они подробно расписаны в разделе 4.
Главное – суммарно все веса спец. моделей составляют 332кк, т.е. мелочи на фоне LLM.
Чтобы всё это сварить вводят два новых модуля: MoAI-Compressor и MoAI-Mixer.
MoAI-Compressor сжимает информацию, поступающую от специализированных моделей. Её перед этим предварительно вербализируют, по сути, приводят к естественному языку (отдельная возня с сегментацией, там кодируют также и всю карту).
MoAI-Mixer смешивает всю поступающую информацию (экспертную, визуальную и языковую) при помощи 6 модулей-экспертов. Почему 6? Процитирую:
Примечательно, что на этапе тренировки разморожены только эти два модуля.
Ну и, в конечном счёте, всё попадает в MLLM уже стандартной архитектуры, в которой визуальный энкодер это CLIP-L/14, а LLM – мультиязыковая InternLM-7B.
Результаты, с учётом размера модели🔥
Код тут
Высокоуровневно: в компьютерном зрении исторически накоплено много крутых специализированных моделей, которые до сих пор в части областей выносят даже огроменные мультимодальные нейросети. Почему бы всё это тогда просто не объединить? Всё равно там в скорости терять уже нечего
В общем, авторы берут сильные модели из следующих областей: panoptic segmentation (instance + semantic сегментация изображения), open-world object detection (обнаружение объектов без предварительно заданных классов), scene graph generation (создание графа сцены, описывающего взаимосвязи между объектами на изображении) и OCR (распознавание символов). Конкретные модели приводить не буду, они подробно расписаны в разделе 4.
Главное – суммарно все веса спец. моделей составляют 332кк, т.е. мелочи на фоне LLM.
Чтобы всё это сварить вводят два новых модуля: MoAI-Compressor и MoAI-Mixer.
MoAI-Compressor сжимает информацию, поступающую от специализированных моделей. Её перед этим предварительно вербализируют, по сути, приводят к естественному языку (отдельная возня с сегментацией, там кодируют также и всю карту).
MoAI-Mixer смешивает всю поступающую информацию (экспертную, визуальную и языковую) при помощи 6 модулей-экспертов. Почему 6? Процитирую:
Specifically, MoAI facilitates pairs of (1) visual-auxiliary feature, (2) visual-language feature, (3) visual-visual feature, (4) language-auxiliary feature, (5) language-visual feature, and (6) language-language feature. Each pair is considered as a query-key pair for a respective cross- or self-attention module serving as experts, clarifying the fusion of information across diverse modalities.
Примечательно, что на этапе тренировки разморожены только эти два модуля.
Ну и, в конечном счёте, всё попадает в MLLM уже стандартной архитектуры, в которой визуальный энкодер это CLIP-L/14, а LLM – мультиязыковая InternLM-7B.
Результаты, с учётом размера модели
Код тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥6❤2🗿1
Классная статья по диффузионным моделям – ELLA
Общий смысл: в качестве текстового энкодера для диффузионок всё ещё часто используется модель из CLIP'а. Создавался CLIP для других задач - сопоставления изображений и короткого текста, а потому длина контекста ограничена 77 токенами, да и соображалкой модель не блещет.
Из-за этого людям приходится мучаться с тегами и промптами, которые очень специфичны и не всегда следуют человеческой логике. Все вот эти "8k, dslr...".
Хорошо было бы иметь умную LLM и свести дизайн промпта к простым правилам. Этим многие сейчас занимаются, но в данной конкретной работе один из самых интересных подходов.
Центральная вещь в исследовании – это адаптер между LLM и генеративной моделью, который называется Timestep-Aware Semantic Connector (TSC)⏳ См. схему.
Зачем он такой сложный? Есть статьи, которые показывают, что диффузионные модели при восстановлении (генерации) изображения из шума сначала фокусируются на низкочастотном содержимом (основные формы, структуры, контуры), а на высокочастотном уже на более поздних этапах (листья, травинки, элементы одежды).
Поэтому, в модуле TSC в AdaLN слои (из DiT) интегрирован временной шаг диффузионной модели, что позволяет извлекать адекватные ему семантические запросы (queries), а не всё сразу. Дальше, конечно, эти запросы идут через cross-attention в Unet, задавая условие генерации.
Очень крутая и логичная идея. Авторы доказывают экспериментально, что другие коннекторы работают хуже: пробуют MLP и разные вариации Perceiver Resampler из Flamingo.
Приятно и то, что ничего, кроме коннектора тренировать не нужно. Его размеры, в зависимости от вариации StableDiffusion, на основе которой пайплайн строится, могут быть от 60кк (SD1.5) до 470кк (SDXL) параметров.
В работе создают, также, свой небольшой (1.065 примеров), но таки бенчмарк – Dense Prompt Graph Benchmark (DPG).
Экспериментируют с разными LLM: TinyLlama, LLaMA-2, T5-XXL. На всех результаты 🔥 и сильно лучше клипа. Для сравнения, на DPG бенчмарке у CLIP 63.18 очков, у LLaMA-2 72.05.
Общий смысл: в качестве текстового энкодера для диффузионок всё ещё часто используется модель из CLIP'а. Создавался CLIP для других задач - сопоставления изображений и короткого текста, а потому длина контекста ограничена 77 токенами, да и соображалкой модель не блещет.
Из-за этого людям приходится мучаться с тегами и промптами, которые очень специфичны и не всегда следуют человеческой логике. Все вот эти "8k, dslr...".
Хорошо было бы иметь умную LLM и свести дизайн промпта к простым правилам. Этим многие сейчас занимаются, но в данной конкретной работе один из самых интересных подходов.
Центральная вещь в исследовании – это адаптер между LLM и генеративной моделью, который называется Timestep-Aware Semantic Connector (TSC)⏳ См. схему.
Зачем он такой сложный? Есть статьи, которые показывают, что диффузионные модели при восстановлении (генерации) изображения из шума сначала фокусируются на низкочастотном содержимом (основные формы, структуры, контуры), а на высокочастотном уже на более поздних этапах (листья, травинки, элементы одежды).
Поэтому, в модуле TSC в AdaLN слои (из DiT) интегрирован временной шаг диффузионной модели, что позволяет извлекать адекватные ему семантические запросы (queries), а не всё сразу. Дальше, конечно, эти запросы идут через cross-attention в Unet, задавая условие генерации.
Очень крутая и логичная идея. Авторы доказывают экспериментально, что другие коннекторы работают хуже: пробуют MLP и разные вариации Perceiver Resampler из Flamingo.
Приятно и то, что ничего, кроме коннектора тренировать не нужно. Его размеры, в зависимости от вариации StableDiffusion, на основе которой пайплайн строится, могут быть от 60кк (SD1.5) до 470кк (SDXL) параметров.
В работе создают, также, свой небольшой (1.065 примеров), но таки бенчмарк – Dense Prompt Graph Benchmark (DPG).
Экспериментируют с разными LLM: TinyLlama, LLaMA-2, T5-XXL. На всех результаты 🔥 и сильно лучше клипа. Для сравнения, на DPG бенчмарке у CLIP 63.18 очков, у LLaMA-2 72.05.
👍9🔥4