Настало время рубрики «Отзыв научного руководителя»
Начну по списку с выпускников нашей магистратуры в МФТИ по профилю МТИИ.
Михаил Авшалумов - тема его диплома была «Разработка мультимодальных нейросетевых методов распознавания изображений на основе трансформерных архитектур».
По этой теме он успел поучаствовать в конференции HAIS-2024 в Испанской Саламанке и опубликовать статью Reframing в престижной серии Lecture Notes in Artificial Intelligence издательства Springer. Сейчас наша работа Say It Better, где он выступает первым автором, подана в топовый журнал Neurocomputing и имеет все шансы на принятие.
Также он достаточно успешно участвовал в нашем проекте для Центра робототехники Сбера. Рецензирования ждет статья на конференцию IITI-2025 по мультимодальной сегментации изображений по запросам-картинкам и тексту.
Будем надеяться, что в какой-то момент Михаил выберет академический трек и поступит к нам в аспирантуру.
#Person #Papers
Начну по списку с выпускников нашей магистратуры в МФТИ по профилю МТИИ.
Михаил Авшалумов - тема его диплома была «Разработка мультимодальных нейросетевых методов распознавания изображений на основе трансформерных архитектур».
По этой теме он успел поучаствовать в конференции HAIS-2024 в Испанской Саламанке и опубликовать статью Reframing в престижной серии Lecture Notes in Artificial Intelligence издательства Springer. Сейчас наша работа Say It Better, где он выступает первым автором, подана в топовый журнал Neurocomputing и имеет все шансы на принятие.
Также он достаточно успешно участвовал в нашем проекте для Центра робототехники Сбера. Рецензирования ждет статья на конференцию IITI-2025 по мультимодальной сегментации изображений по запросам-картинкам и тексту.
Будем надеяться, что в какой-то момент Михаил выберет академический трек и поступит к нам в аспирантуру.
#Person #Papers
❤8🔥5
Следующий мой выпускник 2025 года из нашей магистратуры в МФТИ по профилю МТИИ - Лука Ветошкин
Тема его диплома: «Сегментация объектов сложной формы по текстовому запросу».
По этой теме мы с ним сделали неплохую статью Talk2SAM и подали на конференцию ICONIP-2025.
Лука много участвовал в индустриальных проектах, связанных с сегментацией изображений для роботов и автомобилей от ООО ИнтеграНТ и ООО Вега-ГАЗ. По первому из них есть препринт, и сейчас мы доделываем это исследование, чтобы представить в журнале Q1. По второму проекту мы вместе с Ольгой Матыкиной сделали статью в Труды МФТИ, которая выйдет в 3 номере этого года. Должен отметить, что Лука даже съездил в Якутию на испытания разработанной нами систему помощи водителю грузового автомобиля! Ну и наконец он помог нам с проектом по Код-ИИ Фонда содействия инновациям.
#Person #Papers
Тема его диплома: «Сегментация объектов сложной формы по текстовому запросу».
По этой теме мы с ним сделали неплохую статью Talk2SAM и подали на конференцию ICONIP-2025.
Лука много участвовал в индустриальных проектах, связанных с сегментацией изображений для роботов и автомобилей от ООО ИнтеграНТ и ООО Вега-ГАЗ. По первому из них есть препринт, и сейчас мы доделываем это исследование, чтобы представить в журнале Q1. По второму проекту мы вместе с Ольгой Матыкиной сделали статью в Труды МФТИ, которая выйдет в 3 номере этого года. Должен отметить, что Лука даже съездил в Якутию на испытания разработанной нами систему помощи водителю грузового автомобиля! Ну и наконец он помог нам с проектом по Код-ИИ Фонда содействия инновациям.
#Person #Papers
🔥8
В беспилотном транспорте Лидары (LiDARs) позволяют создавать системы машинного зрения, которые одинаково хорошо работают днем и ночью и могут различать препятствия на расстоянии более 200м. Долгое время они были очень дорогими (особенно 360°-е, мы их применяли на конкурсе Пятый уровень), но в последнее время появились твердотельные лидары, которые видят сектор пространства ~120° по горизонтали и ~25° по вертикали, их цена уже может быть ниже 1000$ и они становятся по-настоящему массовыми. На фото над лобовым стеклом машины Aito M9 именно такой лидар.
Мы на Физтехе активно занимаемся исследованием алгоритмов обработки лидарных облаков точек для сегментации объектов, локализации и картирования. Прикрепил пример 📷, как мы распознаем дорогу и лужи на кампусе МФТИ.
На прошлой неделе к нам в Лабу и Институт ИИ приезжала делегация из Китая, с которой пересекаются наши научные интересы. Обсудили дальнейшее сотрудничество. Надеюсь, в обозримом будущем наши алгоритмы будут массово работать на борту электромобилей 🚗
Мы на Физтехе активно занимаемся исследованием алгоритмов обработки лидарных облаков точек для сегментации объектов, локализации и картирования. Прикрепил пример 📷, как мы распознаем дорогу и лужи на кампусе МФТИ.
На прошлой неделе к нам в Лабу и Институт ИИ приезжала делегация из Китая, с которой пересекаются наши научные интересы. Обсудили дальнейшее сотрудничество. Надеюсь, в обозримом будущем наши алгоритмы будут массово работать на борту электромобилей 🚗
🔥4❤1👍1
Про Мега-проекты в сфере Искусственного интеллекта
У статьи Google про флагманскую нейросетевую модель Gemini 2.5, которая вышла на прошлой неделе на Arxiv, 3295 авторов!
Вот ссылка на саму статью: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
Теперь уже традиционно для подобных препринтов - в статье нет ни схемы модели, ни формул. В основном описывается применение, возможности и ограничения.
#References
У статьи Google про флагманскую нейросетевую модель Gemini 2.5, которая вышла на прошлой неделе на Arxiv, 3295 авторов!
Вот ссылка на саму статью: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
Теперь уже традиционно для подобных препринтов - в статье нет ни схемы модели, ни формул. В основном описывается применение, возможности и ограничения.
#References
❤2😁2🔥1
Forwarded from Center for Cognitive Modeling
🦾🔥👩🚀 — Объявляем набор на стажировку в области искусственного интеллекта и робототехники (Robotics, LLM, RL, CV, Planning)!
Оплачиваемая стажировка в Центре когнитивного моделирования Института ИИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.
На выбор предоставляется 14 проектов, которые включают в себя:
🔹 обучение с подкреплением
🔹 компьютерное зрение
🔹 планирование поведения и управление
🔹 большие языковые модели
🔹 и другое
Два шага для подачи заявки:
1️⃣ выбрать подходящий проект на сайте
2️⃣ заполнить форму
Стажировку можно совмещать с написанием диплома, но нельзя совмещать с другой работой или стажировкой. А после успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.
Прием заявок до 11 августа 2025 включительно!
Вопросы можно задать в сообщениях @fissun.
#стажировка
Оплачиваемая стажировка в Центре когнитивного моделирования Института ИИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.
На выбор предоставляется 14 проектов, которые включают в себя:
Два шага для подачи заявки:
Стажировку можно совмещать с написанием диплома, но нельзя совмещать с другой работой или стажировкой. А после успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.
Прием заявок до 11 августа 2025 включительно!
Вопросы можно задать в сообщениях @fissun.
#стажировка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Следующая по списку в рубрике отзывов - выпускница 2025 года из нашей магистратуры в МФТИ по профилю МТИИ - Ульяна Изместьева
Тема ее диплома: «Применение генеративных моделей для аугментации обучающих данных в задачах сегментации изображений».
По этой теме мы сделали неплохую статью GenLab, принятую на Neuroinformatics-2025. А также успели посотрудничать с группой FusionBrain в AIRI.
Ульяна много участвовала в индустриальных проектах, связанных с распознаванием изображений для роботов и автомобилей от ООО ИнтеграНТ (Препринт) и ООО Вега-ГАЗ. В них мы четко прочувствовали, что часто требуется быстро готовить собственные датасеты с редкими категориями, на которых нужно учить нейронные сети. И решить эту задачу могут помочь диффузионные генеративные модели.
В самом начале магистратуры Ульяна также поучаствовала в написании интересной робототехнической статьи Rozumformer в журнале Q1, где наша команда реализовала оригинальный подход Real-to-Sim-to-Real для управления манипулятором.
#Person #Papers
Тема ее диплома: «Применение генеративных моделей для аугментации обучающих данных в задачах сегментации изображений».
По этой теме мы сделали неплохую статью GenLab, принятую на Neuroinformatics-2025. А также успели посотрудничать с группой FusionBrain в AIRI.
Ульяна много участвовала в индустриальных проектах, связанных с распознаванием изображений для роботов и автомобилей от ООО ИнтеграНТ (Препринт) и ООО Вега-ГАЗ. В них мы четко прочувствовали, что часто требуется быстро готовить собственные датасеты с редкими категориями, на которых нужно учить нейронные сети. И решить эту задачу могут помочь диффузионные генеративные модели.
В самом начале магистратуры Ульяна также поучаствовала в написании интересной робототехнической статьи Rozumformer в журнале Q1, где наша команда реализовала оригинальный подход Real-to-Sim-to-Real для управления манипулятором.
#Person #Papers
🔥6❤1🤨1
Следующая выпускница 2025 года из нашей магистратуры в МФТИ - Маргарита Кичик.
Тема ее диплома: «Распознавание физических свойств объектов трехмерных сцен по их RGB-изображениям».
Этой темой Маргарита занималась при выполнении проекта с Центром робототехники Сбера. Очень надеюсь, что некоторые части диплома превратятся в ближайшее время в хорошую научную статью.
Один из подходов, которым можно решить эту задачу - нейросетевые методы обнаружения и сегментации объектов на изображениями. Здесь Маргарите удалось дать свой вклад в индустриальную работу по детекции объектов на конвейерной ленте WaRP, популярной на Kaggle и опубликованной в журнале EAAI (Q1). Также она поучаствовала в нашем интересном исследовании вместе с AIRI в области активной сегментации SegmaTron, опубликованном в журнале Neurocomputing (Q1). Кроме того, удалось получить полезные результаты для нашего проекта STRLRobotics, в том числе, чтобы мобильный манипулятор открывал двери. Про это у нас есть статья в LNCS (Q2).
#Person #Papers
Тема ее диплома: «Распознавание физических свойств объектов трехмерных сцен по их RGB-изображениям».
Этой темой Маргарита занималась при выполнении проекта с Центром робототехники Сбера. Очень надеюсь, что некоторые части диплома превратятся в ближайшее время в хорошую научную статью.
Один из подходов, которым можно решить эту задачу - нейросетевые методы обнаружения и сегментации объектов на изображениями. Здесь Маргарите удалось дать свой вклад в индустриальную работу по детекции объектов на конвейерной ленте WaRP, популярной на Kaggle и опубликованной в журнале EAAI (Q1). Также она поучаствовала в нашем интересном исследовании вместе с AIRI в области активной сегментации SegmaTron, опубликованном в журнале Neurocomputing (Q1). Кроме того, удалось получить полезные результаты для нашего проекта STRLRobotics, в том числе, чтобы мобильный манипулятор открывал двери. Про это у нас есть статья в LNCS (Q2).
#Person #Papers
🔥5🤨1
Продолжаю отзывы: следующая по списку - выпускница 2025 года из нашей магистратуры в МФТИ - Ольга Матыкина.
Тема ее диплома: «Разработка и исследование методов мультимодальной сегментации сцены».
По этой теме у нее получилась хорошая работа по применению фундаментальных моделей для 3D-обнаружения объектов на данных камер и радаров RCDINO, принятая в журнал Optical Memory and Neural Networks. В ходе кропотливых экспериментов мы прочувствовали, что без видеокарт уровня A100 80Гб какого-то результата добиться практически невозможно для подобных задач.
Ольга много участвовала в индустриальных проектах, связанных с сегментацией и обнаружением объектов на изображениях для роботов и автомобилей от ООО ИнтеграНТ (см. Препринт) и ООО Вега-ГАЗ (статья принята в журнал Труды МФТИ). Продемонстрировала отличные навыки в реализации методов ИИ в ROS2
#Person #Papers
Тема ее диплома: «Разработка и исследование методов мультимодальной сегментации сцены».
По этой теме у нее получилась хорошая работа по применению фундаментальных моделей для 3D-обнаружения объектов на данных камер и радаров RCDINO, принятая в журнал Optical Memory and Neural Networks. В ходе кропотливых экспериментов мы прочувствовали, что без видеокарт уровня A100 80Гб какого-то результата добиться практически невозможно для подобных задач.
Ольга много участвовала в индустриальных проектах, связанных с сегментацией и обнаружением объектов на изображениях для роботов и автомобилей от ООО ИнтеграНТ (см. Препринт) и ООО Вега-ГАЗ (статья принята в журнал Труды МФТИ). Продемонстрировала отличные навыки в реализации методов ИИ в ROS2
#Person #Papers
❤4🤨1
Еще один мой выпускник 2025 года из нашей магистратуры в МФТИ - Роман Титков.
Тема его диплома: «Семантическая реконструкция 3D-сцен в реальном времени с использованием гауссовского сплаттинга».
По этой теме у Романа получились многообещающие результаты, которые мы развиваем сейчас вместе с Центром робототехники Сбера в рамках работы LEG-SLAM. Он разработал оригинальный подход по сжатию визуально-языковых признаков и добавления их в методы гауссовского сплаттинга, позволяющие задавать запросы на естественном языке к трехмерной карте. Статья по этой теме была принята на конференцию Neuroinformatics-2025.
Кроме того, он успел поучаствовать в написании нашей флагманской статьи BBQ, принятой на конференцию ICRA (A*).
Присущие Роману старательная работа с кодом, методичность в решении самых сложных задач, умение грамотно распределять время могли бы пригодиться ему в аспирантуре, если бы он решил продолжать академический трек.
#Person #Papers
Тема его диплома: «Семантическая реконструкция 3D-сцен в реальном времени с использованием гауссовского сплаттинга».
По этой теме у Романа получились многообещающие результаты, которые мы развиваем сейчас вместе с Центром робототехники Сбера в рамках работы LEG-SLAM. Он разработал оригинальный подход по сжатию визуально-языковых признаков и добавления их в методы гауссовского сплаттинга, позволяющие задавать запросы на естественном языке к трехмерной карте. Статья по этой теме была принята на конференцию Neuroinformatics-2025.
Кроме того, он успел поучаствовать в написании нашей флагманской статьи BBQ, принятой на конференцию ICRA (A*).
Присущие Роману старательная работа с кодом, методичность в решении самых сложных задач, умение грамотно распределять время могли бы пригодиться ему в аспирантуре, если бы он решил продолжать академический трек.
#Person #Papers
🔥6🤨1
Наконец-то могу написать про нашу крутую публикацию, принятую на топовую конференцию ICCV'25 - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding (Tatiana Zemskova, Dmitry Yudin). В этой работе мы показали, что эффективное кодирование графа 3D-сцены (в том числе, семантических связей между объектами) позволяет LLM более качественно решать задачи ответов на вопросы по трехмерной сцене, ее описания и поиска объектов на ней.
Хочу отметить большую и самоотверженную работу над этой статьей первого автора - Татьяны Земсковой, аспирантки МФТИ и сотрудницы AIRI!
У статьи есть открытый код на GitHub, страничка на Хабр и HuggingFace.
Кроме того, новости про эту работу вышли в ТАСС, Comnews, Mail.RU.Наука, Компьютерра, InScience, ТГ-канале Института AIRI. Спасибо коллегам из AIRI за информационную поддержку!
#Papers #ICCV
Хочу отметить большую и самоотверженную работу над этой статьей первого автора - Татьяны Земсковой, аспирантки МФТИ и сотрудницы AIRI!
У статьи есть открытый код на GitHub, страничка на Хабр и HuggingFace.
Кроме того, новости про эту работу вышли в ТАСС, Comnews, Mail.RU.Наука, Компьютерра, InScience, ТГ-канале Института AIRI. Спасибо коллегам из AIRI за информационную поддержку!
#Papers #ICCV
arXiv.org
3DGraphLLM: Combining Semantic Graphs and Large Language Models...
A 3D scene graph represents a compact scene model by capturing both the objects present and the semantic relationships between them, making it a promising structure for robotic applications. To...
🔥4❤1
Forwarded from Институт AIRI
Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством ⤵️
Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.
Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.
Arxiv | GitHub | HuggingFace | Хабр
Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.
Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.
Arxiv | GitHub | HuggingFace | Хабр
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Выступил на радио Маяк в подкасте Александра Пушного "Физики и лирики. Цифровой мир". Обсудили как языковые модели учатся понимать трёхмерные сцены. Конечно, непривычно по телефону участвовать в подобных передачах, и связь не очень стабильна.
https://smotrim.ru/audio/2858864
#Activities
https://smotrim.ru/audio/2858864
#Activities
smotrim.ru
Физики и лирики. Цифровой мир. Как языковые модели учатся понимать трёхмерные сцены: слушать аудио на Smotrim
Если раньше языковые модели могли лишь обрабатывать текст, то теперь они учатся «видеть» пространство во всём его многообразии. Как языковые модели осваивают искусство понимания трехмерного пространства, и, какие возможности это открывает перед человечеством…
🔥10👀5👍1