iMapDAY – Telegram
iMapDAY
267 subscribers
301 photos
29 videos
1 file
97 links
Сделал канал для размещения новостей от меня @yuddim и моей команды, занимающейся трехмерным компьютерным зрением роботов и автомобилей. Также давно хотелось собирать в одном месте интересные для меня научные публикации и технологические заметки.
Download Telegram
Присоединяйтесь к нашей команде! 💻

#Internship #News
🦾🔥👩‍🚀Объявляем набор на стажировку в области искусственного интеллекта и робототехники (Robotics, LLM, RL, CV, Planning)!

Оплачиваемая стажировка в Центре когнитивного моделирования Института ИИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.

На выбор предоставляется 14 проектов, которые включают в себя:
🔹обучение с подкреплением
🔹компьютерное зрение
🔹планирование поведения и управление
🔹большие языковые модели
🔹и другое

Два шага для подачи заявки:
1️⃣ выбрать подходящий проект на сайте
2️⃣ заполнить форму

Стажировку можно совмещать с написанием диплома, но нельзя совмещать с другой работой или стажировкой. А после успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.

Прием заявок до 11 августа 2025 включительно!

Вопросы можно задать в сообщениях @fissun.

#стажировка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Следующая по списку в рубрике отзывов - выпускница 2025 года из нашей магистратуры в МФТИ по профилю МТИИ - Ульяна Изместьева

Тема ее диплома: «Применение генеративных моделей для аугментации обучающих данных в задачах сегментации изображений».

По этой теме мы сделали неплохую статью GenLab, принятую на Neuroinformatics-2025. А также успели посотрудничать с группой FusionBrain в AIRI.

Ульяна много участвовала в индустриальных проектах, связанных с распознаванием изображений для роботов и автомобилей от ООО ИнтеграНТ (Препринт) и ООО Вега-ГАЗ. В них мы четко прочувствовали, что часто требуется быстро готовить собственные датасеты с редкими категориями, на которых нужно учить нейронные сети. И решить эту задачу могут помочь диффузионные генеративные модели.

В самом начале магистратуры Ульяна также поучаствовала в написании интересной робототехнической статьи Rozumformer в журнале Q1, где наша команда реализовала оригинальный подход Real-to-Sim-to-Real для управления манипулятором.

#Person #Papers
🔥61🤨1
Следующая выпускница 2025 года из нашей магистратуры в МФТИ - Маргарита Кичик.

Тема ее диплома: «Распознавание физических свойств объектов трехмерных сцен по их RGB-изображениям».

Этой темой Маргарита занималась при выполнении проекта с Центром робототехники Сбера. Очень надеюсь, что некоторые части диплома превратятся в ближайшее время в хорошую научную статью.

Один из подходов, которым можно решить эту задачу - нейросетевые методы обнаружения и сегментации объектов на изображениями. Здесь Маргарите удалось дать свой вклад в индустриальную работу по детекции объектов на конвейерной ленте WaRP, популярной на Kaggle и опубликованной в журнале EAAI (Q1). Также она поучаствовала в нашем интересном исследовании вместе с AIRI в области активной сегментации SegmaTron, опубликованном в журнале Neurocomputing (Q1). Кроме того, удалось получить полезные результаты для нашего проекта STRLRobotics, в том числе, чтобы мобильный манипулятор открывал двери. Про это у нас есть статья в LNCS (Q2).

#Person #Papers
🔥5🤨1
Продолжаю отзывы: следующая по списку - выпускница 2025 года из нашей магистратуры в МФТИ - Ольга Матыкина.

Тема ее диплома: «Разработка и исследование методов мультимодальной сегментации сцены».

По этой теме у нее получилась хорошая работа по применению фундаментальных моделей для 3D-обнаружения объектов на данных камер и радаров RCDINO, принятая в журнал Optical Memory and Neural Networks. В ходе кропотливых экспериментов мы прочувствовали, что без видеокарт уровня A100 80Гб какого-то результата добиться практически невозможно для подобных задач.

Ольга много участвовала в индустриальных проектах, связанных с сегментацией и обнаружением объектов на изображениях для роботов и автомобилей от ООО ИнтеграНТ (см. Препринт) и ООО Вега-ГАЗ (статья принята в журнал Труды МФТИ). Продемонстрировала отличные навыки в реализации методов ИИ в ROS2

#Person #Papers
4🤨1
Еще один мой выпускник 2025 года из нашей магистратуры в МФТИ - Роман Титков.

Тема его диплома: «Семантическая реконструкция 3D-сцен в реальном времени с использованием гауссовского сплаттинга».

По этой теме у Романа получились многообещающие результаты, которые мы развиваем сейчас вместе с Центром робототехники Сбера в рамках работы LEG-SLAM. Он разработал оригинальный подход по сжатию визуально-языковых признаков и добавления их в методы гауссовского сплаттинга, позволяющие задавать запросы на естественном языке к трехмерной карте. Статья по этой теме была принята на конференцию Neuroinformatics-2025.

Кроме того, он успел поучаствовать в написании нашей флагманской статьи BBQ, принятой на конференцию ICRA (A*).

Присущие Роману старательная работа с кодом, методичность в решении самых сложных задач, умение грамотно распределять время могли бы пригодиться ему в аспирантуре, если бы он решил продолжать академический трек.

#Person #Papers
🔥6🤨1
Наконец-то могу написать про нашу крутую публикацию, принятую на топовую конференцию ICCV'25 - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding (Tatiana Zemskova, Dmitry Yudin). В этой работе мы показали, что эффективное кодирование графа 3D-сцены (в том числе, семантических связей между объектами) позволяет LLM более качественно решать задачи ответов на вопросы по трехмерной сцене, ее описания и поиска объектов на ней.

Хочу отметить большую и самоотверженную работу над этой статьей первого автора - Татьяны Земсковой, аспирантки МФТИ и сотрудницы AIRI!

У статьи есть открытый код на GitHub, страничка на Хабр и HuggingFace.

Кроме того, новости про эту работу вышли в ТАСС, Comnews, Mail.RU.Наука, Компьютерра, InScience, ТГ-канале Института AIRI. Спасибо коллегам из AIRI за информационную поддержку!

#Papers #ICCV
🔥41
Forwarded from Институт AIRI
Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством ⤵️

Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.

Arxiv | GitHub | HuggingFace | Хабр
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Группа ученых из Китая выпустила обстоятельный обзор современных архитектур больших языковых моделей «Speed Always Wins» на основе почти 450 источников.

Статья: https://arxiv.org/pdf/2508.09834

В ней авторы коснулись ключевых технологий, лежащих в основе современных LLM, позволяющих ускорять модели и/или экономить память:

1) Линейное моделирование последовательностей с помощью линейного внимания (Attention), линейных RNN, моделей на основе пространства состояний (SSM).

2) Разреженное моделирование последовательностей с помощью, в том числе, разреженных модулей внимания.

3) Технологии на основе смеси экспертов (Mixture of Experts, MoE).

4) Технологии повышения эффективности модулей внимания типа Flash Attention.

5) Гибридные архитектуры.

6) Набирающие популярность Диффузионные LLM (DLLM).

Отдельно отмечены особенности применения различных архитектур для обработки и распознавания изображений, аудио, мультимодальных данных.

GitHub: https://github.com/weigao266/Awesome-Efficient-Arch

#References
🔥1
Всем привет из Белгорода! Город сияет несмотря ни на что!

#Activities
12🔥4👏3
Навестил БГТУ им. В. Г. Шухова, где я учился и проработал много лет, завершил историю с МИПами (совместными с Технологом Малыми инновационными предприятиями).

В механическом корпусе появилась памятная табличка основателю кафедры Техническая кибернетика - Василию Григорьевичу Рубанову.

Университету тяжело, но он держится. Желаю Технологу успехов и побед!
8🔥5👍2