Forwarded from Inspiration de l'inventeur
Вот, как работают современные алгоритмы на примере Ведра:
1) Samsung Galaxy S22+
2) iPhone 15 Pro Max
3) iPhone 13 mini
4) iPhone 16 Pro
Ссылка на ведро:
https://market.yandex.ru/cc/VX3y9Pk
1) Samsung Galaxy S22+
2) iPhone 15 Pro Max
3) iPhone 13 mini
4) iPhone 16 Pro
Ссылка на ведро:
https://market.yandex.ru/cc/VX3y9Pk
2👍22😁18🙊10🎉5💯3🤔1
Дорогие читатели, друзья, коллеги, поздравляю всех с Днём российской науки🔬
Желаю выдающихся открытий, передовых результатов, никогда не сдаваться в процессе исследований и побольше мечтать! Наука - это не только про формулы и законы, но и про удачу, чутьё и целеустремлённость! «Per aspera ad astra» (Через тернии к звёздам) (это всё, что я знаю на латыни — мама в детстве как-то сказала, я запомнил и регулярно вспоминаю это выражение)
У науки нет границ и пусть так остаётся всегда!
Желаю выдающихся открытий, передовых результатов, никогда не сдаваться в процессе исследований и побольше мечтать! Наука - это не только про формулы и законы, но и про удачу, чутьё и целеустремлённость! «Per aspera ad astra» (Через тернии к звёздам) (это всё, что я знаю на латыни — мама в детстве как-то сказала, я запомнил и регулярно вспоминаю это выражение)
У науки нет границ и пусть так остаётся всегда!
❤🔥35🔥17🏆5👍4
Forwarded from Институт AIRI
Когда чувства компилируются без ошибок❤
Мы сделали валентинки для тех, кто видит красоту в коде, звёздное небо в репозиториях и всегда выбирает оптимальный путь — и в науке, и в жизни. Отправляйте их коллегам, друзьям и просто дорогим людям.
Пусть ваши градиенты сходятся, модели не переобучаются, а сердце остаётся в стабильной конвергенции!
Мы сделали валентинки для тех, кто видит красоту в коде, звёздное небо в репозиториях и всегда выбирает оптимальный путь — и в науке, и в жизни. Отправляйте их коллегам, друзьям и просто дорогим людям.
Пусть ваши градиенты сходятся, модели не переобучаются, а сердце остаётся в стабильной конвергенции!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤21😁8👍7⚡2❤🔥2
Forwarded from База знаний AI
Опрос: какие прикладные задачи, связанные с ИИ-моделями, для вас в приоритете в этом году?
Final Results
19%
Улучшение качества обучения ИИ-моделей
21%
Сжатие ИИ-моделей и оптимизация используемой ими инфраструктуры
15%
Разработка систем компьютерного зрения
8%
Распознавание эмоций человека
47%
Расширение возможностей LLM (включая новые модальности, RAG, создание ИИ-агентов и др.)
23%
Создание ИИ-ассистентов для написания программного кода
27%
Решение проблем науки
19%
Решение задач медицины
8%
Другие (отвечу в комментариях)
❤7
У нас тут кстати случилось чудесное событие после одного телефонного звоночка на прошлой неделе)
Разблокировали гитхаб лаборатории — https://github.com/FusionBrainLab 🎉
Все звёзды на месте🔥🔥🔥
Разблокировали гитхаб лаборатории — https://github.com/FusionBrainLab 🎉
Все звёзды на месте🔥🔥🔥
3🔥63🎉14🏆5👍2🌚1🆒1
⚡⚡⚡Прекрасная новость!
Наша статья про open source фреймворк LLM-Microscope и методы оценки языковых моделей на предмет измерения контекстуальности токенов, нелинейности, logit lens и прочего снова борется за первое место на Hugging Face за звание Paper of the day🏆
Поддержите upvote'ами🙏
Мы пока на втором месте, но верю, что можем на первом оказаться)
Cтатья принята на большую международную конференцию Core A — NAACL 2025
Отдать голос за статью можно тут👇
https://huggingface.co/papers/2502.15007
UPD: Спасибо всем большое🙏 Вы как всегда крутые💪
Наша статья про open source фреймворк LLM-Microscope и методы оценки языковых моделей на предмет измерения контекстуальности токенов, нелинейности, logit lens и прочего снова борется за первое место на Hugging Face за звание Paper of the day🏆
Поддержите upvote'ами🙏
Мы пока на втором месте, но верю, что можем на первом оказаться)
Cтатья принята на большую международную конференцию Core A — NAACL 2025
Отдать голос за статью можно тут👇
https://huggingface.co/papers/2502.15007
UPD: Спасибо всем большое🙏 Вы как всегда крутые💪
🔥61👍15👏7❤3🤔1
⚡️+1 Accept на CVPR-2025
Детали о принятой статье расскажу чуть позже😉
Детали о принятой статье расскажу чуть позже😉
1🔥49⚡6🆒3🌚2👏1
⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0
Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).
Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.
Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)
⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417
Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/
@complete_ai
Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).
Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.
Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)
⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417
Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/
@complete_ai
2🔥28💯7🏆6👏1🌚1
Forwarded from RnD CV Team
🙋♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
📖 ArXiv: https://arxiv.org/abs/2304.13509
👩💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait
#news
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
#news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤🔥10⚡4❤1
Forwarded from Институт AIRI
На связи #AIRI_Seminars, рассказываем про следующий семинар, который пройдет 12 марта⤵
Руководитель группы компьютерного зрения MTS AI представит доклад на тему «Обучение штраф разреженности с помощью неявного дифференцирования для робастной оценки и регуляризации изображений». Оппонентом выступит кандидат технических наук, директор лаборатории FusionBrain AIRI Андрей Кузнецов.
Семинар пройдет на английском языке. Подробное описание и регистрация на офлайн-формат с пиццей и нетворкингом по ссылке.
Трансляции: VK Видео и YouTube📌
Руководитель группы компьютерного зрения MTS AI представит доклад на тему «Обучение штраф разреженности с помощью неявного дифференцирования для робастной оценки и регуляризации изображений». Оппонентом выступит кандидат технических наук, директор лаборатории FusionBrain AIRI Андрей Кузнецов.
Семинар пройдет на английском языке. Подробное описание и регистрация на офлайн-формат с пиццей и нетворкингом по ссылке.
Трансляции: VK Видео и YouTube
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17🔥14👍6💯2
This media is not supported in your browser
VIEW IN TELEGRAM
🎉Всех женщин и девушек, читающих этот канал, сердечно поздравляю с Международным женским днём!
Прекрасно понимаю, что среди читателей представительницы совершенно разных профессий: учёные, преподаватели, студенты, менеджеры, маркетологи, дизайнеры и многие другие. И в каждом деле, в каждой профессии, в доме и в семье вы приносите душевность, нежность, вдохновение и заряжаете окружающих вас мужчин огромным зарядом энергии, оптимизма и стремления совершать открытия💐 Спасибо вам за то, что вы есть каждый день! Мы вам очень-очень благодарны за это💐❤️
Прекрасно понимаю, что среди читателей представительницы совершенно разных профессий: учёные, преподаватели, студенты, менеджеры, маркетологи, дизайнеры и многие другие. И в каждом деле, в каждой профессии, в доме и в семье вы приносите душевность, нежность, вдохновение и заряжаете окружающих вас мужчин огромным зарядом энергии, оптимизма и стремления совершать открытия💐 Спасибо вам за то, что вы есть каждый день! Мы вам очень-очень благодарны за это💐❤️
❤49❤🔥13🔥12🦄9😁1🤔1
Forwarded from AbstractDL
M-Attack: как обмануть GPT-4.5 и Gemini
Все привыкли, что атаковать современные мультимодальные модели (типа GPT-4o, Claude, Gemini и т.п.) крайне сложно — особенно, если это black-box модели, где нет доступа к градиентам и архитектуре. Стандартные подходы атак типа "выдать одну картинку за другую" часто генерируют какие-то невнятные шумы, которые либо игнорируются моделью, либо приводят к абстрактным ответам типа "размытое изображение".
Но оказалось, что проблема была не в самих моделях, а в подходе к генерации возмущений. В свежей статье предложили очень простой, но мощный подход — M-Attack:
1. Берём исходную и целевую картинки.
2. На каждом шаге рандомно crop'аем кусок исходного изображения (50-100% площади) и затем ресайзим обратно до исходного размера.
3. Заставляем эмбеддинги этого кусочка максимально приблизиться к эмбеддингам целевого изображения оптимизируясь в white-box режиме по ансамблю открытых визуальных моделей (например, CLIP, ViT и тп).
И всё! После нескольких итераций в центральной области картинки "проявляется" целевая семантика, при этом возмущения выглядят крайне незаметно и аккуратно (в отличие от других подходов).
Авторы добились совершенно впечатляющих результатов: успех атаки (ASR) превышает 90% (!) для GPT-4.5, GPT-4o и даже для o1 и Gemini. Код и датасет из 100 атакованных картинок выложили в открытый доступ.
Статья, GitHub, dataset
Все привыкли, что атаковать современные мультимодальные модели (типа GPT-4o, Claude, Gemini и т.п.) крайне сложно — особенно, если это black-box модели, где нет доступа к градиентам и архитектуре. Стандартные подходы атак типа "выдать одну картинку за другую" часто генерируют какие-то невнятные шумы, которые либо игнорируются моделью, либо приводят к абстрактным ответам типа "размытое изображение".
Но оказалось, что проблема была не в самих моделях, а в подходе к генерации возмущений. В свежей статье предложили очень простой, но мощный подход — M-Attack:
1. Берём исходную и целевую картинки.
2. На каждом шаге рандомно crop'аем кусок исходного изображения (50-100% площади) и затем ресайзим обратно до исходного размера.
3. Заставляем эмбеддинги этого кусочка максимально приблизиться к эмбеддингам целевого изображения оптимизируясь в white-box режиме по ансамблю открытых визуальных моделей (например, CLIP, ViT и тп).
И всё! После нескольких итераций в центральной области картинки "проявляется" целевая семантика, при этом возмущения выглядят крайне незаметно и аккуратно (в отличие от других подходов).
Авторы добились совершенно впечатляющих результатов: успех атаки (ASR) превышает 90% (!) для GPT-4.5, GPT-4o и даже для o1 и Gemini. Код и датасет из 100 атакованных картинок выложили в открытый доступ.
Статья, GitHub, dataset
👍30🔥16❤5😁2
⚡️Наша новая статья про прунинг визуальных энкодеров в мультимодальных моделях «When Less is Enough: Adaptive Token Reduction for Efficient Image Representation» снова борется за звание Paper of the day на Hugging Face
Особенность исследования в том, что от 30 до 50% визуальных фичей можно исключить из контекста мультимодальной модели при незначительном проседании в качестве на бенчах. Очень интересный результат, который мы продолжаем проверять на различных задачах - несёт пользу для экономии длины контекста мультимодальных моделей
Немного не хватает до первого места) Будем очень рады и благодарны вашим апвоутам 🔝
https://huggingface.co/papers/2503.16660
Особенность исследования в том, что от 30 до 50% визуальных фичей можно исключить из контекста мультимодальной модели при незначительном проседании в качестве на бенчах. Очень интересный результат, который мы продолжаем проверять на различных задачах - несёт пользу для экономии длины контекста мультимодальных моделей
Немного не хватает до первого места) Будем очень рады и благодарны вашим апвоутам 🔝
https://huggingface.co/papers/2503.16660
huggingface.co
Paper page - When Less is Enough: Adaptive Token Reduction for Efficient Image
Representation
Representation
Join the discussion on this paper page
1🔥30👍10❤4🏆2