Forwarded from AbstractDL
Qwen-VL: вероятно лучшая мультимодальная языковая модель (by Alibaba)
Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!
Правда архитектурно ничего нового тут нет:
По точности она бьёт всё, что было до неё, причём с запасом (см. картинку). Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.
Статья, GitHub
Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!
Правда архитектурно ничего нового тут нет:
ViT-G + однослойный Q-former + LLMИзображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.
По точности она бьёт всё, что было до неё, причём с запасом (см. картинку). Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.
Статья, GitHub
🎉18👍7❤2🔥2
Forwarded from Ai molodca (Dobrokotov)
В комментах попросили поделиться вариациями инфернальных жоп, которые не вошли в финал. Показываю 😍 .
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33❤12😱3😢1
Комунити менеджеров есть у нас? Отзовитес!
Нужно вести дискорд на ~5к юзеров, онлайн ~1к, язык - английский. Тамада, баянист, услуги, организация праздников итд. В общем, держать сервер в тонусе в плане организации каналов, устраивать движухи и рулить толпой модераторов-добровольцев.
Нужно вести дискорд на ~5к юзеров, онлайн ~1к, язык - английский. Тамада, баянист, услуги, организация праздников итд. В общем, держать сервер в тонусе в плане организации каналов, устраивать движухи и рулить толпой модераторов-добровольцев.
😱8😁4
Forwarded from r/ретранслятор
This media is not supported in your browser
VIEW IN TELEGRAM
Один из актёров фильма «Подземелья и драконы» рассказал, что специально усложнял работу CG-художникам, делая сложные движения руками.
Лицо специалиста по графике в конце говорит о многом
r/#funny
Лицо специалиста по графике в конце говорит о многом
r/#funny
😁78❤4🤩3👍1