Пару дней назад исследователи из Китая (Peking University) выложили на Arxiv достаточно объемный и подробный обзор современных Vision-Language-Action моделей для управления роботами и беспилотными автомобилями:
A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
Репозиторий с подборкой статей: https://github.com/Psi-Robot/Awesome-VLA-Papers
#References
A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
Репозиторий с подборкой статей: https://github.com/Psi-Robot/Awesome-VLA-Papers
#References
🔥3👍2
На этой неделе мой аспирант в МФТИ Чжан Хучженьюй (Zhang Huzhenyu) успешно выступил на конференции IJCNN (International Joint Conference on Neural Networks) в Риме. Эта конференция является флагманской для Международной нейростевой ассоциации (INNS).
На конференции он выступал с устным докладом по нашей статье, получившей достаточно высокие оценки рецензентов: LaMDEN: Addressing Elevator-based Navigation with Large Language Models and 3D Scene Graphs (Huzhenyu Zhang, Yudin Dmitry). В этой работе показана польза использования графа 3D-сцены для LLM-планирования действий мобильного манипулятора в многоэтажных помещениях с лифтом.
Презентацию можно посмотреть тут
Репозиторий к статье выложен в открытый доступ: https://github.com/zhanghuzhenyu/mul-floor-navigation
#Papers #IJCNN
На конференции он выступал с устным докладом по нашей статье, получившей достаточно высокие оценки рецензентов: LaMDEN: Addressing Elevator-based Navigation with Large Language Models and 3D Scene Graphs (Huzhenyu Zhang, Yudin Dmitry). В этой работе показана польза использования графа 3D-сцены для LLM-планирования действий мобильного манипулятора в многоэтажных помещениях с лифтом.
Презентацию можно посмотреть тут
Репозиторий к статье выложен в открытый доступ: https://github.com/zhanghuzhenyu/mul-floor-navigation
#Papers #IJCNN
🔥12
Настало время рубрики «Отзыв научного руководителя»
Начну по списку с выпускников нашей магистратуры в МФТИ по профилю МТИИ.
Михаил Авшалумов - тема его диплома была «Разработка мультимодальных нейросетевых методов распознавания изображений на основе трансформерных архитектур».
По этой теме он успел поучаствовать в конференции HAIS-2024 в Испанской Саламанке и опубликовать статью Reframing в престижной серии Lecture Notes in Artificial Intelligence издательства Springer. Сейчас наша работа Say It Better, где он выступает первым автором, подана в топовый журнал Neurocomputing и имеет все шансы на принятие.
Также он достаточно успешно участвовал в нашем проекте для Центра робототехники Сбера. Рецензирования ждет статья на конференцию IITI-2025 по мультимодальной сегментации изображений по запросам-картинкам и тексту.
Будем надеяться, что в какой-то момент Михаил выберет академический трек и поступит к нам в аспирантуру.
#Person #Papers
Начну по списку с выпускников нашей магистратуры в МФТИ по профилю МТИИ.
Михаил Авшалумов - тема его диплома была «Разработка мультимодальных нейросетевых методов распознавания изображений на основе трансформерных архитектур».
По этой теме он успел поучаствовать в конференции HAIS-2024 в Испанской Саламанке и опубликовать статью Reframing в престижной серии Lecture Notes in Artificial Intelligence издательства Springer. Сейчас наша работа Say It Better, где он выступает первым автором, подана в топовый журнал Neurocomputing и имеет все шансы на принятие.
Также он достаточно успешно участвовал в нашем проекте для Центра робототехники Сбера. Рецензирования ждет статья на конференцию IITI-2025 по мультимодальной сегментации изображений по запросам-картинкам и тексту.
Будем надеяться, что в какой-то момент Михаил выберет академический трек и поступит к нам в аспирантуру.
#Person #Papers
❤8🔥5
Следующий мой выпускник 2025 года из нашей магистратуры в МФТИ по профилю МТИИ - Лука Ветошкин
Тема его диплома: «Сегментация объектов сложной формы по текстовому запросу».
По этой теме мы с ним сделали неплохую статью Talk2SAM и подали на конференцию ICONIP-2025.
Лука много участвовал в индустриальных проектах, связанных с сегментацией изображений для роботов и автомобилей от ООО ИнтеграНТ и ООО Вега-ГАЗ. По первому из них есть препринт, и сейчас мы доделываем это исследование, чтобы представить в журнале Q1. По второму проекту мы вместе с Ольгой Матыкиной сделали статью в Труды МФТИ, которая выйдет в 3 номере этого года. Должен отметить, что Лука даже съездил в Якутию на испытания разработанной нами систему помощи водителю грузового автомобиля! Ну и наконец он помог нам с проектом по Код-ИИ Фонда содействия инновациям.
#Person #Papers
Тема его диплома: «Сегментация объектов сложной формы по текстовому запросу».
По этой теме мы с ним сделали неплохую статью Talk2SAM и подали на конференцию ICONIP-2025.
Лука много участвовал в индустриальных проектах, связанных с сегментацией изображений для роботов и автомобилей от ООО ИнтеграНТ и ООО Вега-ГАЗ. По первому из них есть препринт, и сейчас мы доделываем это исследование, чтобы представить в журнале Q1. По второму проекту мы вместе с Ольгой Матыкиной сделали статью в Труды МФТИ, которая выйдет в 3 номере этого года. Должен отметить, что Лука даже съездил в Якутию на испытания разработанной нами систему помощи водителю грузового автомобиля! Ну и наконец он помог нам с проектом по Код-ИИ Фонда содействия инновациям.
#Person #Papers
🔥8
В беспилотном транспорте Лидары (LiDARs) позволяют создавать системы машинного зрения, которые одинаково хорошо работают днем и ночью и могут различать препятствия на расстоянии более 200м. Долгое время они были очень дорогими (особенно 360°-е, мы их применяли на конкурсе Пятый уровень), но в последнее время появились твердотельные лидары, которые видят сектор пространства ~120° по горизонтали и ~25° по вертикали, их цена уже может быть ниже 1000$ и они становятся по-настоящему массовыми. На фото над лобовым стеклом машины Aito M9 именно такой лидар.
Мы на Физтехе активно занимаемся исследованием алгоритмов обработки лидарных облаков точек для сегментации объектов, локализации и картирования. Прикрепил пример 📷, как мы распознаем дорогу и лужи на кампусе МФТИ.
На прошлой неделе к нам в Лабу и Институт ИИ приезжала делегация из Китая, с которой пересекаются наши научные интересы. Обсудили дальнейшее сотрудничество. Надеюсь, в обозримом будущем наши алгоритмы будут массово работать на борту электромобилей 🚗
Мы на Физтехе активно занимаемся исследованием алгоритмов обработки лидарных облаков точек для сегментации объектов, локализации и картирования. Прикрепил пример 📷, как мы распознаем дорогу и лужи на кампусе МФТИ.
На прошлой неделе к нам в Лабу и Институт ИИ приезжала делегация из Китая, с которой пересекаются наши научные интересы. Обсудили дальнейшее сотрудничество. Надеюсь, в обозримом будущем наши алгоритмы будут массово работать на борту электромобилей 🚗
🔥4❤1👍1
Про Мега-проекты в сфере Искусственного интеллекта
У статьи Google про флагманскую нейросетевую модель Gemini 2.5, которая вышла на прошлой неделе на Arxiv, 3295 авторов!
Вот ссылка на саму статью: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
Теперь уже традиционно для подобных препринтов - в статье нет ни схемы модели, ни формул. В основном описывается применение, возможности и ограничения.
#References
У статьи Google про флагманскую нейросетевую модель Gemini 2.5, которая вышла на прошлой неделе на Arxiv, 3295 авторов!
Вот ссылка на саму статью: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
Теперь уже традиционно для подобных препринтов - в статье нет ни схемы модели, ни формул. В основном описывается применение, возможности и ограничения.
#References
❤2😁2🔥1
Forwarded from Center for Cognitive Modeling
🦾🔥👩🚀 — Объявляем набор на стажировку в области искусственного интеллекта и робототехники (Robotics, LLM, RL, CV, Planning)!
Оплачиваемая стажировка в Центре когнитивного моделирования Института ИИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.
На выбор предоставляется 14 проектов, которые включают в себя:
🔹 обучение с подкреплением
🔹 компьютерное зрение
🔹 планирование поведения и управление
🔹 большие языковые модели
🔹 и другое
Два шага для подачи заявки:
1️⃣ выбрать подходящий проект на сайте
2️⃣ заполнить форму
Стажировку можно совмещать с написанием диплома, но нельзя совмещать с другой работой или стажировкой. А после успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.
Прием заявок до 11 августа 2025 включительно!
Вопросы можно задать в сообщениях @fissun.
#стажировка
Оплачиваемая стажировка в Центре когнитивного моделирования Института ИИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.
На выбор предоставляется 14 проектов, которые включают в себя:
Два шага для подачи заявки:
Стажировку можно совмещать с написанием диплома, но нельзя совмещать с другой работой или стажировкой. А после успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.
Прием заявок до 11 августа 2025 включительно!
Вопросы можно задать в сообщениях @fissun.
#стажировка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Следующая по списку в рубрике отзывов - выпускница 2025 года из нашей магистратуры в МФТИ по профилю МТИИ - Ульяна Изместьева
Тема ее диплома: «Применение генеративных моделей для аугментации обучающих данных в задачах сегментации изображений».
По этой теме мы сделали неплохую статью GenLab, принятую на Neuroinformatics-2025. А также успели посотрудничать с группой FusionBrain в AIRI.
Ульяна много участвовала в индустриальных проектах, связанных с распознаванием изображений для роботов и автомобилей от ООО ИнтеграНТ (Препринт) и ООО Вега-ГАЗ. В них мы четко прочувствовали, что часто требуется быстро готовить собственные датасеты с редкими категориями, на которых нужно учить нейронные сети. И решить эту задачу могут помочь диффузионные генеративные модели.
В самом начале магистратуры Ульяна также поучаствовала в написании интересной робототехнической статьи Rozumformer в журнале Q1, где наша команда реализовала оригинальный подход Real-to-Sim-to-Real для управления манипулятором.
#Person #Papers
Тема ее диплома: «Применение генеративных моделей для аугментации обучающих данных в задачах сегментации изображений».
По этой теме мы сделали неплохую статью GenLab, принятую на Neuroinformatics-2025. А также успели посотрудничать с группой FusionBrain в AIRI.
Ульяна много участвовала в индустриальных проектах, связанных с распознаванием изображений для роботов и автомобилей от ООО ИнтеграНТ (Препринт) и ООО Вега-ГАЗ. В них мы четко прочувствовали, что часто требуется быстро готовить собственные датасеты с редкими категориями, на которых нужно учить нейронные сети. И решить эту задачу могут помочь диффузионные генеративные модели.
В самом начале магистратуры Ульяна также поучаствовала в написании интересной робототехнической статьи Rozumformer в журнале Q1, где наша команда реализовала оригинальный подход Real-to-Sim-to-Real для управления манипулятором.
#Person #Papers
🔥6❤1🤨1
Следующая выпускница 2025 года из нашей магистратуры в МФТИ - Маргарита Кичик.
Тема ее диплома: «Распознавание физических свойств объектов трехмерных сцен по их RGB-изображениям».
Этой темой Маргарита занималась при выполнении проекта с Центром робототехники Сбера. Очень надеюсь, что некоторые части диплома превратятся в ближайшее время в хорошую научную статью.
Один из подходов, которым можно решить эту задачу - нейросетевые методы обнаружения и сегментации объектов на изображениями. Здесь Маргарите удалось дать свой вклад в индустриальную работу по детекции объектов на конвейерной ленте WaRP, популярной на Kaggle и опубликованной в журнале EAAI (Q1). Также она поучаствовала в нашем интересном исследовании вместе с AIRI в области активной сегментации SegmaTron, опубликованном в журнале Neurocomputing (Q1). Кроме того, удалось получить полезные результаты для нашего проекта STRLRobotics, в том числе, чтобы мобильный манипулятор открывал двери. Про это у нас есть статья в LNCS (Q2).
#Person #Papers
Тема ее диплома: «Распознавание физических свойств объектов трехмерных сцен по их RGB-изображениям».
Этой темой Маргарита занималась при выполнении проекта с Центром робототехники Сбера. Очень надеюсь, что некоторые части диплома превратятся в ближайшее время в хорошую научную статью.
Один из подходов, которым можно решить эту задачу - нейросетевые методы обнаружения и сегментации объектов на изображениями. Здесь Маргарите удалось дать свой вклад в индустриальную работу по детекции объектов на конвейерной ленте WaRP, популярной на Kaggle и опубликованной в журнале EAAI (Q1). Также она поучаствовала в нашем интересном исследовании вместе с AIRI в области активной сегментации SegmaTron, опубликованном в журнале Neurocomputing (Q1). Кроме того, удалось получить полезные результаты для нашего проекта STRLRobotics, в том числе, чтобы мобильный манипулятор открывал двери. Про это у нас есть статья в LNCS (Q2).
#Person #Papers
🔥5🤨1
Продолжаю отзывы: следующая по списку - выпускница 2025 года из нашей магистратуры в МФТИ - Ольга Матыкина.
Тема ее диплома: «Разработка и исследование методов мультимодальной сегментации сцены».
По этой теме у нее получилась хорошая работа по применению фундаментальных моделей для 3D-обнаружения объектов на данных камер и радаров RCDINO, принятая в журнал Optical Memory and Neural Networks. В ходе кропотливых экспериментов мы прочувствовали, что без видеокарт уровня A100 80Гб какого-то результата добиться практически невозможно для подобных задач.
Ольга много участвовала в индустриальных проектах, связанных с сегментацией и обнаружением объектов на изображениях для роботов и автомобилей от ООО ИнтеграНТ (см. Препринт) и ООО Вега-ГАЗ (статья принята в журнал Труды МФТИ). Продемонстрировала отличные навыки в реализации методов ИИ в ROS2
#Person #Papers
Тема ее диплома: «Разработка и исследование методов мультимодальной сегментации сцены».
По этой теме у нее получилась хорошая работа по применению фундаментальных моделей для 3D-обнаружения объектов на данных камер и радаров RCDINO, принятая в журнал Optical Memory and Neural Networks. В ходе кропотливых экспериментов мы прочувствовали, что без видеокарт уровня A100 80Гб какого-то результата добиться практически невозможно для подобных задач.
Ольга много участвовала в индустриальных проектах, связанных с сегментацией и обнаружением объектов на изображениях для роботов и автомобилей от ООО ИнтеграНТ (см. Препринт) и ООО Вега-ГАЗ (статья принята в журнал Труды МФТИ). Продемонстрировала отличные навыки в реализации методов ИИ в ROS2
#Person #Papers
❤4🤨1