NEW BOT Телеграм, страница

😁3

605 views18:31

Наш паблик, по задумке, рассчитан на самую разную аудиторию: от просто сопереживающих до опытных специалистов. Чтобы эту дисперсию сгладить, иногда мы будем писать быстрые гайды для погружения в тему.

Сегодня поговорим о том, понимание чего читателю пригодится в наших будущих постах (🤫) - больших мультимодальных моделях (LMM).
Говорить будем в разрезе задачи визуального ассистента: т.е., в простейшем случае речь идёт об изображение + текст на входе -> текст на выходе.

Любой, у кого есть подписка на платную версию ChatGPT, в общем-то хорошо понимает, о чём речь.
А что происходит в опенсорсе?

17 апреля 2023 года, ещё до релиза превью мультимодальной ChatGPT-4V, вышла работа LLaVA (Large Language and Vision Assistant). В среде специалистов она наделала много шума, поскольку всё гениально - просто, и авторы, не сделав ничего недоступного другим, сумели достичь блестящих результатов.

Маленькое отступление: краеугольным камнем всех моделей-ассистентов являются инструктивные данные. В нашем случае они выглядят как картинка + инструкция. Например, можно подать изображение с тем, как человек меняет колесо автомобиля на обочине дороги на вход и попросить сеть описать, какую проблему человек решает, почему она возникла и пр. Такие данные мощно драйвят модель к глубокому пониманию сути вещей.

Так вот, в LLaVA, авторы решили собирать такие инструктивные данные для обучения через ChatGPT, поскольку это мощная модель, способная создавать и сами инструкции, и ответы к ним. А ещё потому что люди такие описания делают достаточно плохо.
Но, поскольку картинки ChatGPT съесть ещё не была способна, они хитрым образом извернулись и подавали подробные текстовые описания изображений, включающие даже баундинг боксы объектов.
Дальше всё достаточно просто: собрав качественные инструктивные данные, авторы взяли LLM Vicuna и ViT-L/14 энкодер из CLIP, и собрали всё это вместе. Таким образом, на вход LLM подаётся текст + эмбеддинги изображения. А чтобы эти визуальные эмбеддинги перевести в текстовое гиперпространство, авторы докинули простой линейный слой. Т.е., тренировка состоит из двух этапов: сначала всё, кроме проекционного слоя замораживается и обучается он, затем размораживается ещё и LLM, чтобы обучить ассистента. Визуальный энкодер остаётся в снегу на всех этапах.

Можете посмотреть демо самостоятельно. Итоговая модель оказалась весьма хороша, особенно с учётом того, как данные собирались, что их было немного и относительной простоты всей системы.
Короче, подход взлетел.

Затем была LLaVA 1.5 с небольшими улучшениями и исправлениями (например, заменили линейный слой на MLP - Multi layer perceptron, ну и много другого поправили), а в конце ноября вышла ShareGPT4V.

Авторы первыми дерзко-резко подорвались и исправили главную проблему LLaVA: они набрали данные из ChatGPT-4V, т.е. с уже нормальной мультимодальностью, а не текстовым описанием изображения. Самой большой и нераскрытой интригой статьи остаётся то, как они обошли ограничение в 100 запросов в день, которое на тот момент действовало для всех :)

Но, как бы то ни было, причесав данные и особо даже ничего больше и не меняя, ребята мощно стрельнули: сеть на данный момент или лучшая из открытых, или одна из лучших, смотря на чём смотреть.
Вот тут можно поиграть с демо (ему изредка плохеет и оно ложится).

Ну и там уже гору всяких вариаций понаделали: LLaVAR (улучшение для OCR задач), LLaVA-Grounding (детекция и сегментация), LLaVA-Interactive (для визуального взаимодействия), LLaVA-Plus (для всего на свете), Video-LLaVA и даже LLaVA-Med.

🔥18👍1

852 views18:31

The Layer

Смотрите какая прикольная штука появилась вчера - ReplaceAnything.
Пока нет почти ничего - ни кода, ни статьи, ни пояснений.

Зато есть демо, очень подходящее для поиграться на выходных и оно прямо 🔥
Суть проста, сначала нужно загрузить пикчу во вкладке Image Create.
Потом, можно выделить то, что хочется защитить от изменений (foreground) и что можно изменять (background).
Снизу в поле нужно ввести какой-нибудь промт, например, для второй фотки я ввёл что-то вроде такого:

A man wearing a coat, holding a cup of coffee in his hand, stands in a square near the Eiffel Tower

Подождём технических деталей, хотя уже видны особенности, характерные для похожих подходов, например Instruct Pix2Pix. В частности - сложности с пониманием текста (на 3 фото в запросе была бутылка водки, а не пивас).

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥9

752 views17:02

The Layer

Изначально текст писался для нашего паблика, но постепенно он вылез за пределы формата Телеграма и пришлось заливать на Habr😅

В общем, TL;DR:
Наткнулся на серию интересных научных статей по теме защиты работ художников от генеративных сетей. Вероятно, это не самая обсуждаемая тема, хотя для многих людей развитие нейросетей стало уже сейчас, без преувеличения, катастрофой.

В одной из работ есть весьма любопытный опрос профессиональных художников и там всё весьма сурово: достаточно сказать, что 78% авторов ожидают, что ИИ повлияет на их трудоустройство, а 77% оценивают качество копирования стиля человека нейросетью как хорошее или очень хорошее.

Разбираю в посте очень высокоуровнево два подхода, разработанных для защиты работ от использования в генеративных моделях. Второй (Nightshade) особенно интересен - сгенерировав с его помощью всего от 25 сэмплов, можно успешно атаковать модель (в контексте авторов - защитить работы). При условии, конечно, что они в трейнсет модели попадут, например, в процессе веб-скрейпинга. И мы говорим, если что, о сетях, у которых размеры трейнсетов начинаются на сотнях миллионов примеров, а обычно речь о миллиардах. С учётом, как всё это собирается и чистится в случае открытых данных (частенько примерно никак), подобные тулы могут представлять существенную угрозу в будущем и будут стимулировать очень серьёзно подходить к фильтрации данных.

Больше деталей в фулле: https://habr.com/ru/articles/785088/

Хабр

Как художники за рабочие места с ИИ борются

Громоподобный шаг научно-технического прогресса слышен издалека: сквозь года до нас доносится эхо шагов из будущего. Шрамы ран, полученных в предыдущие промышленные революции, априорные, переданные...

🔥8👍3

720 views17:04

The Layer

Аж 4 дня, как вышла LMM LLaVA-1.6, а времени написать о ней всё не было. А есть о чём.

Самое главное и долгожданное мной изменение, это то, что авторы называют Dynamic High Resolution – способ работы с изображениями произвольного размера на вход. Дело в том, что оригинальной работе и в версии 1.5 использовалось фиксированное разрешение (224х224 и 336х336), но это было не от хорошей жизни. Тоже самое и в большинстве альтернативных подходов.
При этом, с самого начала не скрывалось использование динамического метода в ChatGPT-V, что понятно хотя бы даже из пояснений к прайсингу. Преимущества для работы с деталями, небольшими объектами и текстом очевидны, и поэтому вопрос перехода к чему-то подобному был делом времени.

В общем, вот как авторы LLaVA это решают: они берут CLIP-ViT-L-14 и разбивают в соответствии с заданными схемами изображение на кусочки по 224х224 (что интересно, у ChatGPT разбивается на 512x512), которые процессят независимо энкодером. Параллельно, по-старинке, процессят и изображение целиком. Последнее нужно для передачи глобального контекста, а так же, чтобы компенсировать артефакты первого. В аппендиксе статьи показано на метриках, что это играет существенную роль.
Затем всё вместе загоняют в LLM.
Поскольку сетки разбиения предопределены, максимальное разрешение ограничено размерами 672x448 или 448x672.

Есть, также, ряд других улучшений и, по итогу, LLaVA-1.6 в версии 34B перформит соизмеримо с коммерческими моделями: умудрилась на нескольких бенчмарках даже обойти ChatGPT-V, на большей части Gemini Pro (предпоследняя по мощности модель от Google) и на всех представленных Qwen-VL-Plus (от Alibaba). Детальнее можно посмотреть на сайте или в обновлённой статье LLaVa-1.5.
Результаты для открытой сети с доступным трейн кодом совершенно ошеломительные и круто задрайвят развитие области.
Демка тут.

👍6🔥5👏1

750 viewsedited 16:32

The Layer

MiVOLOv2.0 уже здесь⚡

Как и раньше, модель можно пощупать в демо на Hugging Face.
А можно прямо тут, в Телеграм боте, которого мы под такое важное событие наконец сделали – @AnyAgeBot!🤖

Основные факты:
- Датасет был расширен на ~30%. Значительная часть дельты состоит из примеров, на которых первая версия ошибалась.
- Много сэмплов из таких сложных и реалистичных источников, как соц. сети или LAION-5B.
- Сильно добалансировали правый хвост распределения возрастов.
- Добавили новые аугментации во время тренировки.
- Появилась новая версия со входным разрешением 384х384, помимо старого 224х224. Оба демо работают с максимальным разрешением.

Рост метрик, в итоге, достаточно значительный. См. комментарии к посту.

Но это ещё не всё. Мы замерили потенциал LMM (Large Multimodal Models) в задаче определения пола и возраста, в т.ч. на ChatGPT и сравнили результаты с MiVOLO. Причём, речь не о просто сборе данных, мы поэкспериментировали с файн-тюном LLaVA.
Результаты вышли настолько интересными, что в скором времени будем писать по этой теме статью-технический репорт.

🔥135👍3

894 views09:17

The Layer

Forwarded from Kali Novskaya (Tatiana Shavrina)

0:59

Media is too big

VIEW IN TELEGRAM

OpenAI только что выпустили SORA— text2video модель

Генерация видео по текстовому описанию наступила!

Сегодня обещают статью

Промпт:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

🟣

https://openai.com/sora#research

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯8🔥3👍1😱11

671 views19:19

The Layer

Недавно StabilityAI анонсировали StableDiffusion 3.
Ребята продолжаются придерживаться своей политики открытости и уже пообещали попозже опубликовать модель.

Это здорово само по себе, но, не стоит смотреть на это, только как на исключительно конечный продукт – многие подходы сейчас используют диффузионые модели или их части как модули в составе сложных пайплайнов.

Деталей немного, но говорят, что будет семейство моделей от 800кк до 8ккк параметров. Обещают улучшенную генерацию текста, который сейчас всё ещё составляет проблему. Пример результатов на пикчах к посту.

Под капотом архитектура на диффузионном трансформере (DiT, как замена отпахавшему кучу лет Unet), кстати говоря, также, как и в видео Sora от OpenAI.
Ещё пишут, что использовалась техника flow matching. Так что в сумме можно ожидать повышенной эффективности и производительности.

Сейчас модель в режиме раннего доступа, можно записаться в лист ожидания.

🔥9👍4🦄3❤1

666 views16:11

The Layer

Если вы активный пользователь больших визуальных (мультимодальных) моделей, таких как Google Gemini или ChatGPT-4V 🗯, которые принимают на вход не только текст, но и изображение, то вероятно, что вы уже привыкли решать через них множество разных задач.
Используют их в хвост и гриву не только целевые пользователи, но и исследователи: через LVM (они же в нашем контексте MLLM, LMM) чего только не вытворяют: от сегментации объектов до редактирования изображений.

Несмотря на то, что стоимость \ время инференса этих моделей может превышать стоимость специализированных решений в тысячи раз, всё равно это выглядит привлекательно.

Судите сами:
Вместо того, чтобы каждый раз собирать тонну данных, чистить их, исследовать задачу, заниматься бесконечной инженерной работой, не говоря о том, что нужно обладать некоторыми знаниями и опытом, достаточно просто правильно подобрать промт и развернуть модель \ заплатить за API.
Множество стартапов так и живут.

Работает всё иной раз так хорошо, что кажется, что через них можно решить буквально что угодно. С точки зрения науки, тем не менее, не совсем понятно, действительно это уже так или пока ещё вопрос ближайшего будущего. В каких-то задачах данные есть и они говорят, что да, в других задачах выходит, что нет, в большинстве ничего не понятно.

В процессе разработки второй версии MiVOLO мы об этом много думали и экспериментировали. Было интересно, на что уже способны лучшие из MLLM, что можно выжать из них для нашей задачи в максимуме и есть ли вообще ещё смысл в спец. моделях? Ответов накопилось на статью😁 Вчера выпустили препринт:

📖

https://arxiv.org/abs/2403.02302

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤4👏1

646 views09:40

The Layer

А тут напишем самую мякотку из результатов:

- В целом большие языковые мультимодальные нейросети мощь и с задачей справляются 💪
- ChatGPT лучшая среди и платных и открытых MLLM в задаче возраста, но всё ещё несколько сдаёт MiVOLO. Правда, это если закрыть глаза на то, что она просто отказывается работать с 21% рандомных и совершенно невинных изображений. На которых, скорее всего, показала бы сильно более высокую ошибку. И без учёта кучих других но.
- С полом у ChatGPT как-то неожиданно плохо, причём на эту тему успела незадолго до нашей выйти ещё одна независимая работа. На ещё более реалистичных данных из соц. сетей плохо прямо сильно.
- При ручном анализе мы заметили подозрительно много примеров, где у лиц мужского пола длинные волосы и на которых ChatGPT ошиблась. Выводы стоит попридержать - это просто наблюдение и многое зависит от промта, цепочки рассуждений и пр. Но задуматься точно есть о чём, возможно доигрались с системой безопасности или это особенности данных.
- Свежая LLaVA-NeXT 34B, предсказуемо, лучшая среди открытых по возрасту и просто лучшая по полу (если из коробки)✨. Вообще, почти у всех (💣) мультимодалок сильно хорошо с полом. Явно сказывается большее понимание контекста, мира и сложных фичей, чем у спец. моделей.
- При этом, у всех открытых моделей не очень хорошо с возрастом.
- MiVOLO всё ещё тащит, даже без учёта стоимости инференса. Но для спец. моделей всё равно плохая новость – оставшихся конкурентов ChatGPT расщепил бы на атомы.
- А если взять ShareGPT4V (на момент завершения работ тренировочный код для LLaVA-NeXT ещё не появился в доступе) и прямо с оригинальным лоссом натренировать на нашем датасете, то будет гига 🌿 на части бенчмарков. Детали в статье.

Please open Telegram to view this post

VIEW IN TELEGRAM

11👍6👏1

831 viewsedited 09:40

The Layer

Ищем стажёра в команду!🦾

Требования:
- Необходимо быть студентом очной формы обучения российского вуза.
- Базовые навыки программирования на Python.
- Базовые навыки работы с командной строкой, Linux и пр. основными тех. инструментами.
- Желательно иметь начальное представление о компьютерном зрении и машинном обучении.

Обязанности:
- Сбор, обработка, фильтрация данных для обучения нейросетей.
- Работа с крауд-сорсом: оформление пайплайнов и заданий.
- Разработка простых скриптов и утилит.
- Работа и эксперименты с моделями.

Условия:
- До 40 часов в неделю с максимально гибким графиком. Можно меньше.
- Возможность удалённой работы по России.
- Корпоративный ноутбук.
- Потенциальная возможность попасть в штат в будущем.
- Оклад и остальные условия в личке.

Заинтересованных прошу написать в личку.

🔥9👍2

688 viewsedited 09:59

The Layer

Интересная работа: Hallucination is Inevitable: An Innate Limitation of Large Language Models, доказывающая, что LLM не могут не галлюцинировать по своей природе.

Суть, в общем-то, в выводах:

In this paper, we study the fundamental problem of eliminating hallucinations in LLMs. To do so, we define a formal world where hallucination in LLMs can be clearly defined and discussed. Specifically, hallucination is defined as inconsistencies between computable LLMs and a computable ground truth function. By utilizing results in learning theory, we show that hallucination is inevitable for computable LLMs if the ground truth function is any computable function. Since the formal world is a part of the real world, we further conclude that it is impossible to eliminate hallucination in the real world LLMs. Using the formal world framework, we discuss the possible mechanisms and effectiveness of existing hallucination mitigators and discuss practical implications that our theoretical results have on the deployment of LLMs in the real world. We emphasize that since hallucination is inevitable, rigorous study of the safety of LLMs is critical.

причём:

...hallucination is inevitable for any computable LLM, regardless of model architecture, learning algorithms, prompting techniques, or training data.

🤔6🤯3😨1

551 views13:50

The Layer

Audio

Последнее время стало модно пихать в LLM всё, что пихается. А что не пихается – забивать ногами.
Почему бы и да, ведь часто хорошо работает.

Но всё равно каждый новый день умудряется удивить.
В этот раз в LLM запихали музыкальную ABC нотацию 🎸

Работа называется ChatMusician.

We introduce ChatMusician, an open-source LLM that integrates intrinsic musical abilities. It is based on continual pre-training and finetuning LLaMA2 on a text-compatible music representation, ABC notation, and the music is treated as a second language. ChatMusician can understand and generate music with a pure text tokenizer without any external multi-modal neural structures or tokenizers.

Уверяют, что:

Interestingly, endowing musical abilities does not harm language abilities, even achieving a slightly higher MMLU score.

😳

На сайте по ссылке можно послушать примеры, но мне больше всего понравился прикрёплнный к посту.
Есть даже некоторое эпическое развитие сюжета.

Обратите внимание, как выглядит вход – задаётся структура:

Text Input:
Develop a composition by incorporating elements from the given melodic structure.

Musical Form Input:
Ternary, Sectional: Verse/Chorus/Bridge

Данные и модели выложили.

Please open Telegram to view this post

VIEW IN TELEGRAM

6🤩2👍1🦄1

573 views16:20

About

Blog

Apps

Platform