Интересные демки работы FRESCO.
Нет, решать задачи за 30 секунд не нужно😆
Название расшифровывается как Spatial-Temporal Correspondence for Zero-Shot Video Translation и посвящена работа zero-shot транслированию видео при помощи диффузионных моделей.
Т.е. на вход какое-то видео + текстовый промпт -> на выходе изменённое видео.
Код есть🐍
Нет, решать задачи за 30 секунд не нужно
Название расшифровывается как Spatial-Temporal Correspondence for Zero-Shot Video Translation и посвящена работа zero-shot транслированию видео при помощи диффузионных моделей.
Т.е. на вход какое-то видео + текстовый промпт -> на выходе изменённое видео.
Код есть🐍
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8 5🙈1
На днях вышел новый мультимодальный бенчмарк SEED-Bench-2-Plus. Его цель – замер точности работы мультимодальных нейросетей на насыщенных текстом данных в трёх категориях: диаграммы, карты и веб-страницы.
Бенчмарк позиционируется как дополнение к выпущенному теми же авторами основному SEED-Bench-2. Видимо поэтому не очень много примеров, всего 2.3к. Ну и, возможно, было решено, что они достаточно сложные.
Не могут же они майнить Хирша, правда? 😳
Самое интересное в этой статье – сравнение реально всех SOTA моделей, даже ChatGPT и вышедшей за 3 дня😳 до бенчмарка SEED-X.
Всего проверяют 34 модели.
Примеры состоят из вопросов по изображениям с 4 вариантами ответов, см. первую пикчу.
А на следующей представлены итоговые результаты.
Интересно, что ChatGPT не первая и даже не вторая модель в подзадаче с веб-страницами и проигрывает ОС моделям. Что ещё раз намекает, как бы ни славились MLLM универсальностью и генерализацией, как бы ни были хороши коммерческие решения, модель всё ещё нужно выбирать конкретно под решаемую задачу.
В целом же, известно, что с такими данными все MLLM справляются со скрежетом и числа в лидерборде это лишний раз подтверждают.
Бенчмарк позиционируется как дополнение к выпущенному теми же авторами основному SEED-Bench-2. Видимо поэтому не очень много примеров, всего 2.3к. Ну и, возможно, было решено, что они достаточно сложные.
Самое интересное в этой статье – сравнение реально всех SOTA моделей, даже ChatGPT и вышедшей за 3 дня
Всего проверяют 34 модели.
Примеры состоят из вопросов по изображениям с 4 вариантами ответов, см. первую пикчу.
А на следующей представлены итоговые результаты.
Интересно, что ChatGPT не первая и даже не вторая модель в подзадаче с веб-страницами и проигрывает ОС моделям. Что ещё раз намекает, как бы ни славились MLLM универсальностью и генерализацией, как бы ни были хороши коммерческие решения, модель всё ещё нужно выбирать конкретно под решаемую задачу.
В целом же, известно, что с такими данными все MLLM справляются со скрежетом и числа в лидерборде это лишний раз подтверждают.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔5🔥4❤2
Наткнулся на интересное исследование с ICLR – Vision Transformers Need Registers.
Оказывается, визуальные трансформеры в процессе обучения смекают, что не все токены одинаково полезны и учатся использовать малосодержательные для своих личных технических нужд – для сохранения туда глобальной информации об изображении.
Речь идёт об участках карт признаков, в которых чего-то полезного изначально мало (вроде заднего фона). На первой картинке можно увидеть визуализацию артефактов в этих областях.
Эффект появляется примерно в средних слоях, только в достаточно больших трансформерах (ViT >= L, OpenCLIP и DeiT-III >= B) и при достаточно долгих тренировках.
Эти артефакты вносят искажения и могут ухудшать результаты в некоторых downstream задачах.
Авторы делают логичный вывод - если модель вынуждена так хитро изворачиваться, значит ей чего-то в жизни явно не хватает.
Поэтому в качестве регистров добавляют обучаемые токены (см. пикчу 2), которые непосредственно в предсказании не участвуют, но выполняют техническую функцию (делать ViT счастливым). После этого изменения эффект пропадает. Ну и доказывается экспериментально, что в большинстве случаев от использования регистров есть прирост качества.
Самый интересный вопрос, будет ли этот эффект возникать в гибридных моделях, особенно в таких, где для подготовки патчей используются блоки со свёрточными слоями? Можно предположить, что естественные свойства свёрток и более качественные, плотные, инвариантные признаки сильно уменьшают вероятность возникновения этого эффекта. Было бы интересно исследовать, но, к сожалению, авторы вопроса гибридов совсем никак не касаются.
На лично нашей практике, такие модели показывают себя очень хорошо, по крайней мере на специальных задачах, сочетая все плюсы двух миров: хорошо и быстро сходятся, требуют намного меньшие объёмы данных и достигают как минимум сравнимой точности.
MiVOLO как раз именно из их числа 😄
Оказывается, визуальные трансформеры в процессе обучения смекают, что не все токены одинаково полезны и учатся использовать малосодержательные для своих личных технических нужд – для сохранения туда глобальной информации об изображении.
Речь идёт об участках карт признаков, в которых чего-то полезного изначально мало (вроде заднего фона). На первой картинке можно увидеть визуализацию артефактов в этих областях.
Эффект появляется примерно в средних слоях, только в достаточно больших трансформерах (ViT >= L, OpenCLIP и DeiT-III >= B) и при достаточно долгих тренировках.
Эти артефакты вносят искажения и могут ухудшать результаты в некоторых downstream задачах.
Авторы делают логичный вывод - если модель вынуждена так хитро изворачиваться, значит ей чего-то в жизни явно не хватает.
Поэтому в качестве регистров добавляют обучаемые токены (см. пикчу 2), которые непосредственно в предсказании не участвуют, но выполняют техническую функцию (делать ViT счастливым). После этого изменения эффект пропадает. Ну и доказывается экспериментально, что в большинстве случаев от использования регистров есть прирост качества.
Самый интересный вопрос, будет ли этот эффект возникать в гибридных моделях, особенно в таких, где для подготовки патчей используются блоки со свёрточными слоями? Можно предположить, что естественные свойства свёрток и более качественные, плотные, инвариантные признаки сильно уменьшают вероятность возникновения этого эффекта. Было бы интересно исследовать, но, к сожалению, авторы вопроса гибридов совсем никак не касаются.
На лично нашей практике, такие модели показывают себя очень хорошо, по крайней мере на специальных задачах, сочетая все плюсы двух миров: хорошо и быстро сходятся, требуют намного меньшие объёмы данных и достигают как минимум сравнимой точности.
MiVOLO как раз именно из их числа 😄
👍7🔥3🤔1
Очень классный жанр публикаций – это практические советы-рецепты в стиле "cookbook". Хорошо помню, что одной из первых прочитанных мной статей, в начале карьеры, была работа Иошуа Бенджио Practical Recommendations for Gradient-Based Training of Deep Architectures.
Мне это вспомнилось потому, что ребята из HuggingFace выпустили препринт: Что важно при создании визуально-языковых моделей?
Продолжая кулинарные аналогии, к сожалению, несмотря на аппетитное название, под крышкой кастрюли всего 6 рецептов. И не все из них интересные. Поэтому в посте я их немного переделал💊
Авторы делят архитектуры VLM моделей на 2 типа: cross-attention и полностью авторегрессионные. В первом варианте изображение кодируется энкодером и прокидывается в разные слои LLM через механизм внимания. Во втором выход энкодера объединяется с текстовыми эмбеддингами напрямую и всё подаётся на вход LLM.
Рецепты полезные, но не хватает более интенсивных экспериментов с визуальными моделями и LLM.
Вторая часть работы посвящена VLM, которая, понятное дело, натренирована с учётом всех найденных вещей – Idefics2. Метрики хорошие, правда на наших задачах она не взлетела вообще😳
Мне это вспомнилось потому, что ребята из HuggingFace выпустили препринт: Что важно при создании визуально-языковых моделей?
Продолжая кулинарные аналогии, к сожалению, несмотря на аппетитное название, под крышкой кастрюли всего 6 рецептов. И не все из них интересные. Поэтому в посте я их немного переделал
Авторы делят архитектуры VLM моделей на 2 типа: cross-attention и полностью авторегрессионные. В первом варианте изображение кодируется энкодером и прокидывается в разные слои LLM через механизм внимания. Во втором выход энкодера объединяется с текстовыми эмбеддингами напрямую и всё подаётся на вход LLM.
Рецепт: Для фиксированного количества параметров, качество LLM важнее, чем качество визуального энкодера.
Это проверяли на cross-attention архитектуре, остальное на авторегрессионной.
Рецепт: При применении более комплексных визуальных энкодеров качество растёт слабее, чем можно было бы ожидать. При попытке использовать огромную EVA-CLIP-5B, авторы получают точность даже хуже, чем у SigLIP-SO400M. Из чего делается вывод, что EVA-CLIP-5B сильно недотренирована и у коммьюнити до сих пор нет сильной фундаментальной визуальной модели.
Рецепт: Cross-attention архитектура работает лучше, чем авторегрессионная, если тренировать только новые слои (CA или проекционные). Но так сравнивать не совсем честно, т.к. тогда у первой тренируется 25% параметров, а у второй 15%. А разморозить целиком просто в лоб не получилось, потому что авторы не смогли стабилизировать тренировку авторегрессионной модели. В итоге, использовали LoRA (метод уменьшения количества тренируемых параметров модели). В таком варианте сильно лучше авторегресионный подход и он дал наилучшие результаты вообще.
Рецепт: Количество визуальных токенов важно для точности, но при этом когда их слишком
много, это ухудшает производительность и контекст может распухнуть. Если использовать Perceiver Resampler в качестве обучаемого пуллинга (операция уменьшения размерности входных данных, сохраняющая при этом важные характеристики), то 64 визуальных токена будет за глаза и качество вырастет.
Рецепт: Изначально визуальный энкодер SigLIP тренировался на квадратных изображениях 768х768. Адаптация его для работы с изображениями с сохранённым оригинальным соотношением сторон – это хорошая идея. Делают это через интерполяцию позиционных эмбеддингов и LoRA. Качество немного падает, но зато существенно эффективнее тренировка, инференс и расход памяти.
Рецепты полезные, но не хватает более интенсивных экспериментов с визуальными моделями и LLM.
Вторая часть работы посвящена VLM, которая, понятное дело, натренирована с учётом всех найденных вещей – Idefics2. Метрики хорошие, правда на наших задачах она не взлетела вообще
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4🤔2❤1
Пару недель назад вышел новый метод дистилляции диффузионных моделей Flash Diffusion, а сейчас подвезли демку для SD3!
Дистилляция занимает от пары десятков (SD1.5) до пары сотен (SDXL) GPU-часов, протестирована на множестве задач: text-to-image, inpainting, super resolution, face swap и на T2I адаптерах, а FID и CLIP-Score на COCO датасетах лучше, чем у других методов.
Авторы выложили код, в том числе и для обучения, модели (SD3, SDXL, Pixart-alpha) и онлайн-демо.
А умельцы уже добавили TinyAutoencoder для SD3, что ещё ускорило модель, попробуйте сами!
Дистилляция занимает от пары десятков (SD1.5) до пары сотен (SDXL) GPU-часов, протестирована на множестве задач: text-to-image, inpainting, super resolution, face swap и на T2I адаптерах, а FID и CLIP-Score на COCO датасетах лучше, чем у других методов.
Авторы выложили код, в том числе и для обучения, модели (SD3, SDXL, Pixart-alpha) и онлайн-демо.
А умельцы уже добавили TinyAutoencoder для SD3, что ещё ускорило модель, попробуйте сами!
Встречайте GigaCheck – наш внезапный, удивительный и потрясающий продукт для детектирования русскоязычных текстов, сгенерированных LLM.
Всего за год экспериментальный проект эволюционировал до серьёзного продукта и технологии с SOTA качеством среди всего известного на данный момент. Понимаю, заявление громкое, но подождите, мы в скорости выпустим статью и расставим все точки во флоатах.
То, что задача горячая, думаю, доказывать не нужно: чего сейчас только LLM ассистенты не делают за людей – и знакомятся, и дипломы пишут, и бизнес планируют. Не сомневаюсь, что вы встречали это в новостях.
Больше хочется поговорить про решаемость задачи. Мнения тут сильно разнятся – не специалисты почему-то зачастую крепко убеждены, что распознать текст, сгенерированный LLM очень просто, в то время как в профессиональной среде популярно ровно обратное мнение: задача нерешаема. Подливает масла в огонь и то, что OpenAI делали свой собственный детектор, но спустя непродолжительное время его спрятали, посчитав нерабочим.
В пабликах по всему Телеграму можно найти много достаточно близких мнений: раз, два, три... имя им легион.
Да, задача, безусловно, очень сложная, а ещё для решения требуется много данных, кропотливого труда, усердия и постоянной поддержки в проде.
Но, если очертить ей какие-то практические рамки, то всё меняется.
Сделаю маленькое отступление: во многих сферах, например, в вопросах противодействия угону автомобиля, известен такой феномен, что пытаться сделать защиту абсолютной – бессмысленно, если прямо очень понадобится, злоумышленники всё равно решат вопрос. У борьбы меча и щита просто нет конца, это основа мироздания. Но зато можно защититься в такой мере, что риски и затраты перевесят выгоду.
Тут история близкая. В практическом применении совершенный детектор не нужен. Нужно, чтобы текст для обхода детектора пришлось бы достаточно сильно исказить и он стал бесполезен для использования. Ну или вынудить переписывать и подбирать текст так долго, что гораздо дешевле окажется сразу написать самому.
Это та цель, которую мы преследовали, и, в рамках первой итерации, достигли.
Конечно, детектор ещё иногда ошибается (например, есть проблемы со стихами), но и мы ещё не закончили.
GigaCheck доступен:
- На сайте developers.sber.ru.
- Как Телеграм бот: @layer_ai_detector_bot
- Как API для бизнеса [скоро].
А ещё мы скоро выпустим дополнение – интервальную детекцию, которая позволяет работать со смешанными текстами.
Всего за год экспериментальный проект эволюционировал до серьёзного продукта и технологии с SOTA качеством среди всего известного на данный момент. Понимаю, заявление громкое, но подождите, мы в скорости выпустим статью и расставим все точки во флоатах.
То, что задача горячая, думаю, доказывать не нужно: чего сейчас только LLM ассистенты не делают за людей – и знакомятся, и дипломы пишут, и бизнес планируют. Не сомневаюсь, что вы встречали это в новостях.
Больше хочется поговорить про решаемость задачи. Мнения тут сильно разнятся – не специалисты почему-то зачастую крепко убеждены, что распознать текст, сгенерированный LLM очень просто, в то время как в профессиональной среде популярно ровно обратное мнение: задача нерешаема. Подливает масла в огонь и то, что OpenAI делали свой собственный детектор, но спустя непродолжительное время его спрятали, посчитав нерабочим.
В пабликах по всему Телеграму можно найти много достаточно близких мнений: раз, два, три... имя им легион.
Да, задача, безусловно, очень сложная, а ещё для решения требуется много данных, кропотливого труда, усердия и постоянной поддержки в проде.
Но, если очертить ей какие-то практические рамки, то всё меняется.
Сделаю маленькое отступление: во многих сферах, например, в вопросах противодействия угону автомобиля, известен такой феномен, что пытаться сделать защиту абсолютной – бессмысленно, если прямо очень понадобится, злоумышленники всё равно решат вопрос. У борьбы меча и щита просто нет конца, это основа мироздания. Но зато можно защититься в такой мере, что риски и затраты перевесят выгоду.
Тут история близкая. В практическом применении совершенный детектор не нужен. Нужно, чтобы текст для обхода детектора пришлось бы достаточно сильно исказить и он стал бесполезен для использования. Ну или вынудить переписывать и подбирать текст так долго, что гораздо дешевле окажется сразу написать самому.
Это та цель, которую мы преследовали, и, в рамках первой итерации, достигли.
Конечно, детектор ещё иногда ошибается (например, есть проблемы со стихами), но и мы ещё не закончили.
GigaCheck доступен:
- На сайте developers.sber.ru.
- Как Телеграм бот: @layer_ai_detector_bot
- Как API для бизнеса [скоро].
Интересный факт:
Ради интереса мы прогнали 220 000 текстов, взятых за последний месяц из крупных новостных изданий. Оказалось, что 6% из них были сгенерированы LLM, а в случае некоторых конкретных изданий эта доля больше трети!
А ещё мы скоро выпустим дополнение – интервальную детекцию, которая позволяет работать со смешанными текстами.
🔥12 7❤3
Мы выпустили монстра из клетки: Цербер уже тут 🔥
Цербер – наша многоголовая модель для детекции объектов, такая же используется в беспилотниках Тесла (HydraNets).
Он работал верой и правдой в сервисах Layer годами, а сегодня мы хотим открыть его миру.
Фишки модели:
- Позволяет тренироваться на нескольких датасетах одновременно, таким образом избегая единой разметки, которая не всегда возможна и всегда болезненна.
- Классы, атрибуты или любые другие аннотации в этих датасетах могут быть конфликтующими – никаких проблем. Например, в одном датасете светофор обводили боксом вместе со столбом, а в другом нет.
- Уже на двух задачах / датасетах ускоряет тренировку и инференс на 36%, если сравнивать со специализированными моделями. Чем больше задач, тем больше ускорение. На 8 задачах ускорение будет больше 50%. Потери в точности, при этом, или отсутствуют, или минимальные.
- Возможность гибко интегрировать подход в любые другие детекционные архитектуры. В open source версии мы использовали YOLOv8x (anchor-free), но нет никаких проблем использовать совсем свежую YOLOv10 или DETR.
🐍 Код и реализация всех необходимых алгоритмов
📖 Статья со всеми деталями
Цербер – наша многоголовая модель для детекции объектов, такая же используется в беспилотниках Тесла (HydraNets).
Он работал верой и правдой в сервисах Layer годами, а сегодня мы хотим открыть его миру.
Фишки модели:
- Позволяет тренироваться на нескольких датасетах одновременно, таким образом избегая единой разметки, которая не всегда возможна и всегда болезненна.
- Классы, атрибуты или любые другие аннотации в этих датасетах могут быть конфликтующими – никаких проблем. Например, в одном датасете светофор обводили боксом вместе со столбом, а в другом нет.
- Уже на двух задачах / датасетах ускоряет тренировку и инференс на 36%, если сравнивать со специализированными моделями. Чем больше задач, тем больше ускорение. На 8 задачах ускорение будет больше 50%. Потери в точности, при этом, или отсутствуют, или минимальные.
- Возможность гибко интегрировать подход в любые другие детекционные архитектуры. В open source версии мы использовали YOLOv8x (anchor-free), но нет никаких проблем использовать совсем свежую YOLOv10 или DETR.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍13 5🎉2
В марте мы писали про наше исследование способности больших мультимодальных моделей определять возраст и пол человека по фото, а также сравнивали их с MiVOLOv2.
С тех пор, конечно, многое поменялось, и главное – вышел ChatGPT-4o. Модель сильно отличается от предыдущей 4Vision и поэтому было разумно ожидать изменения в результатах.
Недавно дошли руки это проверить, заодно обновили препринт.
TLDR:🌿
4о совершила огромный рывок вперёд в определении возраста и делает это даже лучше MiVOLOv2. Причём, неожиданно, самый большой скачок в задаче определения возраста без лица на фотографии, по изображению тела. А ещё метрики у 4o при работе без лиц и с ними заметно ближе, чем у других моделей. Видимо, новая GPT стала меньше завязываться на лица, а это ещё одно хорошее подкрепление нашей идеи из оригинальной статьи, что нужно использовать всю доступную информацию.
А вот определение пола, в случае изображений с лицами, практически никак не улучшилось и осталось на невысоком уровне, ниже открытой LLaVA-NeXT. Дело явно не в возможностях модели.
С тех пор, конечно, многое поменялось, и главное – вышел ChatGPT-4o. Модель сильно отличается от предыдущей 4Vision и поэтому было разумно ожидать изменения в результатах.
Недавно дошли руки это проверить, заодно обновили препринт.
TLDR:
4о совершила огромный рывок вперёд в определении возраста и делает это даже лучше MiVOLOv2. Причём, неожиданно, самый большой скачок в задаче определения возраста без лица на фотографии, по изображению тела. А ещё метрики у 4o при работе без лиц и с ними заметно ближе, чем у других моделей. Видимо, новая GPT стала меньше завязываться на лица, а это ещё одно хорошее подкрепление нашей идеи из оригинальной статьи, что нужно использовать всю доступную информацию.
А вот определение пола, в случае изображений с лицами, практически никак не улучшилось и осталось на невысоком уровне, ниже открытой LLaVA-NeXT. Дело явно не в возможностях модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7
Друзья, уже совсем скоро мы опубликуем нашу новую исследовательскую работу, и чтобы вы подошли к ней во всеоружии, мы подготовили для вас статью на Хабре “DETR: Бесконечная история” 🚀
Мы часто слышим о развитии YOLO, но как насчёт DETR? Несмотря на меньшее внимание, архитектура совершила настоящую революцию в мире детекторов. В нашей статье мы разобрали путь развития DETR от оригинальной версии до современных моделей, таких как DINO- или CO-DETR.
Если вы впервые слышите о DETR или хотите сначала освежить свои знания, то перед прочтением статьи можно ознакомиться с этими видео-разборами - тык, тык.
📚 Читать статью: тык
Мы часто слышим о развитии YOLO, но как насчёт DETR? Несмотря на меньшее внимание, архитектура совершила настоящую революцию в мире детекторов. В нашей статье мы разобрали путь развития DETR от оригинальной версии до современных моделей, таких как DINO- или CO-DETR.
Если вы впервые слышите о DETR или хотите сначала освежить свои знания, то перед прочтением статьи можно ознакомиться с этими видео-разборами - тык, тык.
📚 Читать статью: тык
Хабр
DETR: Бесконечная история
Введение Всем привет, с вами команда Layer ! Мы рады сообщить, что совсем скоро выйдет наша новая исследовательская работа, посвященная поиску моментов в видео, релевантных...
🔥10 6👍5
У нас отличные новости! 🔥🔥🔥
Сегодня была опубликована наша исследовательская работа: "Saliency-Guided DETR for Moment Retrieval and Highlight Detection". В ней мы предлагаем новый способ поиска ключевых моментов в видео релевантных текстовым запросам пользователей. Это было захватывающее приключение, полное вызовов и открытий, и теперь мы рады поделиться результатами с вами!🥱 🌿
Основные моменты нашей работы:
1. Saliency Guided Cross-Attention модуль
В рамках исследования мы разработали уникальный модуль, который эффективно объединяет признаки видеоклипов и пользовательских запросов, обеспечивая невероятное качество сопоставления⏹
2. Гибридный детектор
Для эффективного решения задачи поиска моментов мы объединили гибкость современных фундаментальных видео энкодеров и точность гибридных DETR-like детекторов🧑🎓
3. Фреймворк для генерации претрейн датасета
Во время нашего исследования мы столкнулись с важной проблемой: существенный дефицит данных для обучения модели. Поэтому мы разработали собственный метод автоматической разметки, и модель, обученная на полученных данных, показала результаты близкие к SOTA в zero-shot режиме, что стало для нас особым поводом для гордости😎
Наша модель SG-DETR демонстрирует SOTA метрики на всех ключевых бенчмарках: Charades-STA, TACoS, TVSUM и YouTube Highlights. Особо впечатляющим стал результат на главном бенчмарке QVHighlights, где модель опередила предыдущее решение с невероятным гэпом в 7.44 п.п.🌿 🌿 🌿
Препринт версия работы доступна на arXiv и PwC. И уже совсем скоро опубликуем в открытый доступ код, веса модели и наш датасет. Будем рады вашим отзывам и комментариям! 📚
Сегодня была опубликована наша исследовательская работа: "Saliency-Guided DETR for Moment Retrieval and Highlight Detection". В ней мы предлагаем новый способ поиска ключевых моментов в видео релевантных текстовым запросам пользователей. Это было захватывающее приключение, полное вызовов и открытий, и теперь мы рады поделиться результатами с вами!
Основные моменты нашей работы:
1. Saliency Guided Cross-Attention модуль
В рамках исследования мы разработали уникальный модуль, который эффективно объединяет признаки видеоклипов и пользовательских запросов, обеспечивая невероятное качество сопоставления
2. Гибридный детектор
Для эффективного решения задачи поиска моментов мы объединили гибкость современных фундаментальных видео энкодеров и точность гибридных DETR-like детекторов
3. Фреймворк для генерации претрейн датасета
Во время нашего исследования мы столкнулись с важной проблемой: существенный дефицит данных для обучения модели. Поэтому мы разработали собственный метод автоматической разметки, и модель, обученная на полученных данных, показала результаты близкие к SOTA в zero-shot режиме, что стало для нас особым поводом для гордости
Наша модель SG-DETR демонстрирует SOTA метрики на всех ключевых бенчмарках: Charades-STA, TACoS, TVSUM и YouTube Highlights. Особо впечатляющим стал результат на главном бенчмарке QVHighlights, где модель опередила предыдущее решение с невероятным гэпом в 7.44 п.п.
Препринт версия работы доступна на arXiv и PwC. И уже совсем скоро опубликуем в открытый доступ код, веса модели и наш датасет. Будем рады вашим отзывам и комментариям! 📚
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥12🔥3🤔3❤1👎1
Меня всегда очень радует, если технологии служат какой-то очень конкретной, доброй и общественно полезной цели.
Будучи студентом, я увлекался биоинформатикой (и даже в итоге диплом писал по этой теме) не в последнюю очередь из-за этого. Меня мотивировала наука, которая не просто изучает устройство мира, но ещё и находится на самом переднем краю борьбы с худшими болезнями.
Поэтому мне особенно приятно рассказать, что наши коллеги из команды RnD CV занимаются одной из таких общественно важных тем – применяют технологии машинного обучения для распознавания русского жестового языка. Ребята в этой области уже достаточно давно и сделали в неё немалый вклад. А в своей свежей статье на Хабре поведали о Bukva – первом полноценном видеонаборе данных для распознавания дактильной азбуки🔥
В процессе его создания ребята использовали MiVOLOv2!
Будучи студентом, я увлекался биоинформатикой (и даже в итоге диплом писал по этой теме) не в последнюю очередь из-за этого. Меня мотивировала наука, которая не просто изучает устройство мира, но ещё и находится на самом переднем краю борьбы с худшими болезнями.
Поэтому мне особенно приятно рассказать, что наши коллеги из команды RnD CV занимаются одной из таких общественно важных тем – применяют технологии машинного обучения для распознавания русского жестового языка. Ребята в этой области уже достаточно давно и сделали в неё немалый вклад. А в своей свежей статье на Хабре поведали о Bukva – первом полноценном видеонаборе данных для распознавания дактильной азбуки
В процессе его создания ребята использовали MiVOLOv2!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥5🤯1
Мы тут ведём очень активную работу по развитию GigaCheck, и скоро надеемся много интересного рассказать.
А пока, уже по традиции, у нас есть для вас прогревочная статья.
Если вдруг вы пропустили весь движ (или просто не успели вникнуть) с Mamba – очень интересной альтернативой трансформерам, то вам должен показаться увлекательным наш обзор:
https://habr.com/ru/companies/sberdevices/articles/855080/
А пока, уже по традиции, у нас есть для вас прогревочная статья.
Если вдруг вы пропустили весь движ (или просто не успели вникнуть) с Mamba – очень интересной альтернативой трансформерам, то вам должен показаться увлекательным наш обзор:
https://habr.com/ru/companies/sberdevices/articles/855080/
Хабр
State Space Models. Mamba
Привет, Habr! Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры . Они произвели настоящий фурор и стали основой для самых известных...
🔥13❤4 4👍1
В ходе работы над нашей статьей по детекции сгенерированных текстов (GigaCheck), сравнивая наш метод с уже существующими, мы также решили замерить подход авторов статьи Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts 2023 года, так как в ней заявляется SOTA качество.
Кстати, среди авторов статьи Техножрица. Если вдруг не подписаны на её канал, то вот пост по этой работе, ну и там много других интересных!
Сравниваемые методы определяют, является ли весь текст написанным человеком или сгенерированным LLM. Подход авторов использует методы топологического анализа данных (TDA) и с помощью подсчёта внутренней размерности текста (на основе эмбеддингов, полученных из языковой модели RoBERTa) с заранее заданным трешхолдом классифицирует текст.
Наш метод основан на использовании LLM (на днях опубликуем препринт со всеми деталями).
Мы сравнили подходы на пяти датасетах (см. пикчу ниже постом).
Для каждого трешхолд для порогового классификатора был выбран на основе лучшего accuracy на валидационном сете. К сожалению, нам не удалось воспроизвести результаты авторов и точность подхода, основанного на PHD (Persistence Homology Dimension), получилось около рандомной.
Можно предположить, что подсчитанная способом авторов внутренняя размерность человеческих и сгенерированных текстов не является универсальным признаком для классификации. До конца причина такого качества пока не ясна, возможно авторы работы ещё помогут нам разобраться (мы с ними связались). Тем не менее, подход является важным академическим шагом на пути к решению задачи сгенерированного контента.
На самом деле, задача детекции сгенерированных текстов крайне сложная и очень чувствительная к данным, поэтому в нашей статье мы постарались провести замеры на большом количестве самых разнообразных текстов (полученных из разных доменов, разными генераторами), чтобы получить репрезентативные результаты.
В общем, stay tuned — совсем скоро мы раскроем все детали о собственном точном и устойчивом решении, пригодном не только для задачи бинарной классификации, но и для интервального анализа смешанных текстов, написанных совместно человеком и генеративной моделью.
Кстати, среди авторов статьи Техножрица. Если вдруг не подписаны на её канал, то вот пост по этой работе, ну и там много других интересных!
Сравниваемые методы определяют, является ли весь текст написанным человеком или сгенерированным LLM. Подход авторов использует методы топологического анализа данных (TDA) и с помощью подсчёта внутренней размерности текста (на основе эмбеддингов, полученных из языковой модели RoBERTa) с заранее заданным трешхолдом классифицирует текст.
Наш метод основан на использовании LLM (на днях опубликуем препринт со всеми деталями).
Мы сравнили подходы на пяти датасетах (см. пикчу ниже постом).
Для каждого трешхолд для порогового классификатора был выбран на основе лучшего accuracy на валидационном сете. К сожалению, нам не удалось воспроизвести результаты авторов и точность подхода, основанного на PHD (Persistence Homology Dimension), получилось около рандомной.
Можно предположить, что подсчитанная способом авторов внутренняя размерность человеческих и сгенерированных текстов не является универсальным признаком для классификации. До конца причина такого качества пока не ясна, возможно авторы работы ещё помогут нам разобраться (мы с ними связались). Тем не менее, подход является важным академическим шагом на пути к решению задачи сгенерированного контента.
На самом деле, задача детекции сгенерированных текстов крайне сложная и очень чувствительная к данным, поэтому в нашей статье мы постарались провести замеры на большом количестве самых разнообразных текстов (полученных из разных доменов, разными генераторами), чтобы получить репрезентативные результаты.
В общем, stay tuned — совсем скоро мы раскроем все детали о собственном точном и устойчивом решении, пригодном не только для задачи бинарной классификации, но и для интервального анализа смешанных текстов, написанных совместно человеком и генеративной моделью.
🤯10❤6🔥5 2👍1