NEW BOT Телеграм, страница - 668780335

Complete AI

7.92K subscribers

490 photos

34 videos

10 files

267 links

Меня зовут Андрей Кузнецов

Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML

Tg: @kuznetsoff87
Linkedin: https://tinyurl.com/y96nmmdd

Download Telegram

About

Blog

Apps

Platform

7.92K subscribers

Forwarded from Институт AIRI

Когда чувства компилируются без ошибок

❤

Мы сделали валентинки для тех, кто видит красоту в коде, звёздное небо в репозиториях и всегда выбирает оптимальный путь — и в науке, и в жизни. Отправляйте их коллегам, друзьям и просто дорогим людям.

Пусть ваши градиенты сходятся, модели не переобучаются, а сердце остаётся в стабильной конвергенции!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤21😁8👍7⚡2❤‍🔥2

3.41K views12:55

Forwarded from База знаний AI

Опрос: какие прикладные задачи, связанные с ИИ-моделями, для вас в приоритете в этом году?

Final Results

Улучшение качества обучения ИИ-моделей

Сжатие ИИ-моделей и оптимизация используемой ими инфраструктуры

Разработка систем компьютерного зрения

Распознавание эмоций человека

Расширение возможностей LLM (включая новые модальности, RAG, создание ИИ-агентов и др.)

Создание ИИ-ассистентов для написания программного кода

Решение проблем науки

Решение задач медицины

Другие (отвечу в комментариях)

❤7

537 voters4.28K views10:01

У нас тут кстати случилось чудесное событие после одного телефонного звоночка на прошлой неделе)

Разблокировали гитхаб лаборатории — https://github.com/FusionBrainLab 🎉

Все звёзды на месте🔥🔥🔥

3🔥63🎉14🏆5👍2🌚1🆒1

4.76K viewsedited 11:42

⚡⚡⚡Прекрасная новость!
Наша статья про open source фреймворк LLM-Microscope и методы оценки языковых моделей на предмет измерения контекстуальности токенов, нелинейности, logit lens и прочего снова борется за первое место на Hugging Face за звание Paper of the day🏆

Поддержите upvote'ами🙏
Мы пока на втором месте, но верю, что можем на первом оказаться)
Cтатья принята на большую международную конференцию Core A — NAACL 2025

Отдать голос за статью можно тут👇
https://huggingface.co/papers/2502.15007

UPD: Спасибо всем большое🙏 Вы как всегда крутые💪

🔥61👍15👏7❤3🤔1

11K viewsedited 17:36

⚡️+1 Accept на CVPR-2025

Детали о принятой статье расскажу чуть позже😉

1🔥49⚡6🆒3🌚2👏1

3.1K views21:09

⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0

Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).

Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)

Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.

Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)

⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417

Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/

@complete_ai

2🔥28💯7🏆6👏1🌚1

11.7K views11:06

⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0 Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST). Архитектура…

🎉

🏆38🔥4❤1🤔1

3.62K views20:15

Forwarded from RnD CV Team

🙋‍♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.

⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.

🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.

📖

ArXiv: https://arxiv.org/abs/2304.13509

👩‍💻

GitHub: https://github.com/hukenovs/easyportrait

🔑

kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤‍🔥10⚡4❤1

3.23K views10:57

Kandinsky в платёжных терминалах по всей стране готовится поздравлять всех женщин и девушек 💐

❤‍🔥50🔥20⚡6❤2😱2🎉1🌚1👾1

3.9K views17:44

Forwarded from Институт AIRI

На связи #AIRI_Seminars, рассказываем про следующий семинар, который пройдет 12 марта

⤵

Руководитель группы компьютерного зрения MTS AI представит доклад на тему «Обучение штраф разреженности с помощью неявного дифференцирования для робастной оценки и регуляризации изображений». Оппонентом выступит кандидат технических наук, директор лаборатории FusionBrain AIRI Андрей Кузнецов.

Семинар пройдет на английском языке. Подробное описание и регистрация на офлайн-формат с пиццей и нетворкингом по ссылке.

Трансляции: VK Видео и YouTube

📌

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17🔥14👍6💯2

3.86K views10:15

This media is not supported in your browser

VIEW IN TELEGRAM

🎉Всех женщин и девушек, читающих этот канал, сердечно поздравляю с Международным женским днём!

Прекрасно понимаю, что среди читателей представительницы совершенно разных профессий: учёные, преподаватели, студенты, менеджеры, маркетологи, дизайнеры и многие другие. И в каждом деле, в каждой профессии, в доме и в семье вы приносите душевность, нежность, вдохновение и заряжаете окружающих вас мужчин огромным зарядом энергии, оптимизма и стремления совершать открытия💐 Спасибо вам за то, что вы есть каждый день! Мы вам очень-очень благодарны за это💐❤️

❤49❤‍🔥13🔥12🦄9😁1🤔1

5.01K views08:28

На прошлой неделе вышло моё небольшое интервью для @snobru на тему технологической гонки в ИИ в мире. Обсуждали глобальные вызовы, подходы к развитию ИИ в США, Европе и Азии.

Подробнее можно посмотреть по ссылке

❤‍🔥22⚡11👍8🏆3🔥1

3.64K views09:03

Forwarded from AbstractDL

M-Attack: как обмануть GPT-4.5 и Gemini

Все привыкли, что атаковать современные мультимодальные модели (типа GPT-4o, Claude, Gemini и т.п.) крайне сложно — особенно, если это black-box модели, где нет доступа к градиентам и архитектуре. Стандартные подходы атак типа "выдать одну картинку за другую" часто генерируют какие-то невнятные шумы, которые либо игнорируются моделью, либо приводят к абстрактным ответам типа "размытое изображение".

Но оказалось, что проблема была не в самих моделях, а в подходе к генерации возмущений. В свежей статье предложили очень простой, но мощный подход — M-Attack:
1. Берём исходную и целевую картинки.
2. На каждом шаге рандомно crop'аем кусок исходного изображения (50-100% площади) и затем ресайзим обратно до исходного размера.
3. Заставляем эмбеддинги этого кусочка максимально приблизиться к эмбеддингам целевого изображения оптимизируясь в white-box режиме по ансамблю открытых визуальных моделей (например, CLIP, ViT и тп).

И всё! После нескольких итераций в центральной области картинки "проявляется" целевая семантика, при этом возмущения выглядят крайне незаметно и аккуратно (в отличие от других подходов).

Авторы добились совершенно впечатляющих результатов: успех атаки (ASR) превышает 90% (!) для GPT-4.5, GPT-4o и даже для o1 и Gemini. Код и датасет из 100 атакованных картинок выложили в открытый доступ.

Статья, GitHub, dataset

👍30🔥16❤5😁2

3.35K views02:37

⚡️Наша новая статья про прунинг визуальных энкодеров в мультимодальных моделях «When Less is Enough: Adaptive Token Reduction for Efficient Image Representation» снова борется за звание Paper of the day на Hugging Face

Особенность исследования в том, что от 30 до 50% визуальных фичей можно исключить из контекста мультимодальной модели при незначительном проседании в качестве на бенчах. Очень интересный результат, который мы продолжаем проверять на различных задачах - несёт пользу для экономии длины контекста мультимодальных моделей

Немного не хватает до первого места) Будем очень рады и благодарны вашим апвоутам 🔝

https://huggingface.co/papers/2503.16660

Paper page - When Less is Enough: Adaptive Token Reduction for Efficient Image
Representation

Join the discussion on this paper page

1🔥30👍10❤4🏆2

4.42K viewsedited 13:15

⚡️Всегда испытываю искреннюю радость за успехи ребят, с которыми удалось работать! Андрей пришел стажером ко мне в лабораторию в 2024 году по предложению @Ivan_Oseledets, занимался исследованиями мультимодальных архитектур, параллельно обучаясь и набираясь опыта, достигая успехов в исследованиях в AIRI и не только. А сегодня я горжусь его успехами и рад, что имею возможность работать с такими талантливыми ребятами🙏

🔥57🆒7👏5❤3🏆3

3.61K views12:53

Прошло уже больше 6 лет с последнего open source релиза LLM от Open AI (это была модель GPT-2 в феврале 2019), и вот Альтман говорит, что в ближайшее время планируется релиз новой открытой модели🙈 Верим?

https://techcrunch.com/2025/03/31/openai-plans-to-release-a-new-open-language-model-in-the-coming-months/

OpenAI plans to release a new 'open' AI language model in the coming months | TechCrunch

OpenAI has announced that it intends to release its first 'open' language model since GPT‑2 sometime in 2025.

😁15

3.51K viewsedited 05:43