NEW BOT Телеграм, страница

iMapDAY

Настало время рубрики «Отзыв научного руководителя»

Начну по списку с выпускников нашей магистратуры в МФТИ по профилю МТИИ.

Михаил Авшалумов - тема его диплома была «Разработка мультимодальных нейросетевых методов распознавания изображений на основе трансформерных архитектур».

По этой теме он успел поучаствовать в конференции HAIS-2024 в Испанской Саламанке и опубликовать статью Reframing в престижной серии Lecture Notes in Artificial Intelligence издательства Springer. Сейчас наша работа Say It Better, где он выступает первым автором, подана в топовый журнал Neurocomputing и имеет все шансы на принятие.

Также он достаточно успешно участвовал в нашем проекте для Центра робототехники Сбера. Рецензирования ждет статья на конференцию IITI-2025 по мультимодальной сегментации изображений по запросам-картинкам и тексту.

Будем надеяться, что в какой-то момент Михаил выберет академический трек и поступит к нам в аспирантуру.

#Person #Papers

❤8🔥5

306 views17:31

iMapDAY

Следующий мой выпускник 2025 года из нашей магистратуры в МФТИ по профилю МТИИ - Лука Ветошкин

Тема его диплома: «Сегментация объектов сложной формы по текстовому запросу».

По этой теме мы с ним сделали неплохую статью Talk2SAM и подали на конференцию ICONIP-2025.

Лука много участвовал в индустриальных проектах, связанных с сегментацией изображений для роботов и автомобилей от ООО ИнтеграНТ и ООО Вега-ГАЗ. По первому из них есть препринт, и сейчас мы доделываем это исследование, чтобы представить в журнале Q1. По второму проекту мы вместе с Ольгой Матыкиной сделали статью в Труды МФТИ, которая выйдет в 3 номере этого года. Должен отметить, что Лука даже съездил в Якутию на испытания разработанной нами систему помощи водителю грузового автомобиля! Ну и наконец он помог нам с проектом по Код-ИИ Фонда содействия инновациям.

#Person #Papers

🔥8

305 views17:56

iMapDAY

В беспилотном транспорте Лидары (LiDARs) позволяют создавать системы машинного зрения, которые одинаково хорошо работают днем и ночью и могут различать препятствия на расстоянии более 200м. Долгое время они были очень дорогими (особенно 360°-е, мы их применяли на конкурсе Пятый уровень), но в последнее время появились твердотельные лидары, которые видят сектор пространства ~120° по горизонтали и ~25° по вертикали, их цена уже может быть ниже 1000$ и они становятся по-настоящему массовыми. На фото над лобовым стеклом машины Aito M9 именно такой лидар.

Мы на Физтехе активно занимаемся исследованием алгоритмов обработки лидарных облаков точек для сегментации объектов, локализации и картирования. Прикрепил пример 📷, как мы распознаем дорогу и лужи на кампусе МФТИ.

На прошлой неделе к нам в Лабу и Институт ИИ приезжала делегация из Китая, с которой пересекаются наши научные интересы. Обсудили дальнейшее сотрудничество. Надеюсь, в обозримом будущем наши алгоритмы будут массово работать на борту электромобилей 🚗

🔥4❤1👍1

1.69K views14:52

iMapDAY

Про Мега-проекты в сфере Искусственного интеллекта

У статьи Google про флагманскую нейросетевую модель Gemini 2.5, которая вышла на прошлой неделе на Arxiv, 3295 авторов!

Вот ссылка на саму статью: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
Теперь уже традиционно для подобных препринтов - в статье нет ни схемы модели, ни формул. В основном описывается применение, возможности и ограничения.

#References

597 viewsedited 07:37

iMapDAY

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Такое лето в Москве (видео эффектнее смотреть со звуком) ☔️

#Hobby #Moscow

❤2😁2🔥1

344 views09:15

iMapDAY

Присоединяйтесь к нашей команде! 💻

#Internship #News

265 viewsedited 16:22

iMapDAY

Forwarded from Center for Cognitive Modeling

🦾🔥👩‍🚀 — Объявляем набор на стажировку в области искусственного интеллекта и робототехники (Robotics, LLM, RL, CV, Planning)!

Оплачиваемая стажировка в Центре когнитивного моделирования Института ИИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.

На выбор предоставляется 14 проектов, которые включают в себя:
🔹обучение с подкреплением
🔹компьютерное зрение
🔹планирование поведения и управление
🔹большие языковые модели
🔹и другое

Два шага для подачи заявки:
1️⃣ выбрать подходящий проект на сайте
2️⃣ заполнить форму

Стажировку можно совмещать с написанием диплома, но нельзя совмещать с другой работой или стажировкой. А после успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.

Прием заявок до 11 августа 2025 включительно!

Вопросы можно задать в сообщениях @fissun.

#стажировка

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2👍1

255 views16:22

iMapDAY

Следующая по списку в рубрике отзывов - выпускница 2025 года из нашей магистратуры в МФТИ по профилю МТИИ - Ульяна Изместьева

Тема ее диплома: «Применение генеративных моделей для аугментации обучающих данных в задачах сегментации изображений».

По этой теме мы сделали неплохую статью GenLab, принятую на Neuroinformatics-2025. А также успели посотрудничать с группой FusionBrain в AIRI.

Ульяна много участвовала в индустриальных проектах, связанных с распознаванием изображений для роботов и автомобилей от ООО ИнтеграНТ (Препринт) и ООО Вега-ГАЗ. В них мы четко прочувствовали, что часто требуется быстро готовить собственные датасеты с редкими категориями, на которых нужно учить нейронные сети. И решить эту задачу могут помочь диффузионные генеративные модели.

В самом начале магистратуры Ульяна также поучаствовала в написании интересной робототехнической статьи Rozumformer в журнале Q1, где наша команда реализовала оригинальный подход Real-to-Sim-to-Real для управления манипулятором.

#Person #Papers

🔥6❤1🤨1

1.56K viewsedited 22:05

iMapDAY

Следующая выпускница 2025 года из нашей магистратуры в МФТИ - Маргарита Кичик.

Тема ее диплома: «Распознавание физических свойств объектов трехмерных сцен по их RGB-изображениям».

Этой темой Маргарита занималась при выполнении проекта с Центром робототехники Сбера. Очень надеюсь, что некоторые части диплома превратятся в ближайшее время в хорошую научную статью.

Один из подходов, которым можно решить эту задачу - нейросетевые методы обнаружения и сегментации объектов на изображениями. Здесь Маргарите удалось дать свой вклад в индустриальную работу по детекции объектов на конвейерной ленте WaRP, популярной на Kaggle и опубликованной в журнале EAAI (Q1). Также она поучаствовала в нашем интересном исследовании вместе с AIRI в области активной сегментации SegmaTron, опубликованном в журнале Neurocomputing (Q1). Кроме того, удалось получить полезные результаты для нашего проекта STRLRobotics, в том числе, чтобы мобильный манипулятор открывал двери. Про это у нас есть статья в LNCS (Q2).

#Person #Papers

🔥5🤨1

1.12K viewsedited 22:11

iMapDAY

Продолжаю отзывы: следующая по списку - выпускница 2025 года из нашей магистратуры в МФТИ - Ольга Матыкина.

Тема ее диплома: «Разработка и исследование методов мультимодальной сегментации сцены».

По этой теме у нее получилась хорошая работа по применению фундаментальных моделей для 3D-обнаружения объектов на данных камер и радаров RCDINO , принятая в журнал Optical Memory and Neural Networks. В ходе кропотливых экспериментов мы прочувствовали, что без видеокарт уровня A100 80Гб какого-то результата добиться практически невозможно для подобных задач.

Ольга много участвовала в индустриальных проектах, связанных с сегментацией и обнаружением объектов на изображениях для роботов и автомобилей от ООО ИнтеграНТ (см. Препринт) и ООО Вега-ГАЗ (статья принята в журнал Труды МФТИ). Продемонстрировала отличные навыки в реализации методов ИИ в ROS2

#Person #Papers

❤4🤨1

1.29K viewsedited 22:36

iMapDAY

Еще один мой выпускник 2025 года из нашей магистратуры в МФТИ - Роман Титков.

Тема его диплома: «Семантическая реконструкция 3D-сцен в реальном времени с использованием гауссовского сплаттинга».

По этой теме у Романа получились многообещающие результаты, которые мы развиваем сейчас вместе с Центром робототехники Сбера в рамках работы LEG-SLAM . Он разработал оригинальный подход по сжатию визуально-языковых признаков и добавления их в методы гауссовского сплаттинга, позволяющие задавать запросы на естественном языке к трехмерной карте. Статья по этой теме была принята на конференцию Neuroinformatics-2025.

Кроме того, он успел поучаствовать в написании нашей флагманской статьи BBQ , принятой на конференцию ICRA (A*).

Присущие Роману старательная работа с кодом, методичность в решении самых сложных задач, умение грамотно распределять время могли бы пригодиться ему в аспирантуре, если бы он решил продолжать академический трек.

#Person #Papers

🔥6🤨1

1.69K viewsedited 22:53

iMapDAY

Наконец-то могу написать про нашу крутую публикацию, принятую на топовую конференцию ICCV'25 - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding (Tatiana Zemskova, Dmitry Yudin). В этой работе мы показали, что эффективное кодирование графа 3D-сцены (в том числе, семантических связей между объектами) позволяет LLM более качественно решать задачи ответов на вопросы по трехмерной сцене, ее описания и поиска объектов на ней.

Хочу отметить большую и самоотверженную работу над этой статьей первого автора - Татьяны Земсковой, аспирантки МФТИ и сотрудницы AIRI!

У статьи есть открытый код на GitHub, страничка на Хабр и HuggingFace.

Кроме того, новости про эту работу вышли в ТАСС, Comnews, Mail.RU.Наука, Компьютерра, InScience, ТГ-канале Института AIRI. Спасибо коллегам из AIRI за информационную поддержку!

#Papers #ICCV

arXiv.org

3DGraphLLM: Combining Semantic Graphs and Large Language Models...

A 3D scene graph represents a compact scene model by capturing both the objects present and the semantic relationships between them, making it a promising structure for robotic applications. To...

🔥4❤1

575 viewsedited 13:13

iMapDAY

Forwarded from Институт AIRI

Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством

⤵️

Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.

Arxiv | GitHub | HuggingFace | Хабр

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

355 views13:13

iMapDAY

Выступил на радио Маяк в подкасте Александра Пушного "Физики и лирики. Цифровой мир". Обсудили как языковые модели учатся понимать трёхмерные сцены. Конечно, непривычно по телефону участвовать в подобных передачах, и связь не очень стабильна.

https://smotrim.ru/audio/2858864

#Activities

smotrim.ru

Физики и лирики. Цифровой мир. Как языковые модели учатся понимать трёхмерные сцены: слушать аудио на Smotrim

Если раньше языковые модели могли лишь обрабатывать текст, то теперь они учатся «видеть» пространство во всём его многообразии. Как языковые модели осваивают искусство понимания трехмерного пространства, и, какие возможности это открывает перед человечеством…

🔥10👀5👍1

339 viewsedited 10:33

About

Blog

Apps

Platform