iMapDAY – Telegram
iMapDAY
267 subscribers
301 photos
29 videos
1 file
97 links
Сделал канал для размещения новостей от меня @yuddim и моей команды, занимающейся трехмерным компьютерным зрением роботов и автомобилей. Также давно хотелось собирать в одном месте интересные для меня научные публикации и технологические заметки.
Download Telegram
Еще один мой выпускник 2025 года из нашей магистратуры в МФТИ - Роман Титков.

Тема его диплома: «Семантическая реконструкция 3D-сцен в реальном времени с использованием гауссовского сплаттинга».

По этой теме у Романа получились многообещающие результаты, которые мы развиваем сейчас вместе с Центром робототехники Сбера в рамках работы LEG-SLAM. Он разработал оригинальный подход по сжатию визуально-языковых признаков и добавления их в методы гауссовского сплаттинга, позволяющие задавать запросы на естественном языке к трехмерной карте. Статья по этой теме была принята на конференцию Neuroinformatics-2025.

Кроме того, он успел поучаствовать в написании нашей флагманской статьи BBQ, принятой на конференцию ICRA (A*).

Присущие Роману старательная работа с кодом, методичность в решении самых сложных задач, умение грамотно распределять время могли бы пригодиться ему в аспирантуре, если бы он решил продолжать академический трек.

#Person #Papers
🔥6🤨1
Наконец-то могу написать про нашу крутую публикацию, принятую на топовую конференцию ICCV'25 - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding (Tatiana Zemskova, Dmitry Yudin). В этой работе мы показали, что эффективное кодирование графа 3D-сцены (в том числе, семантических связей между объектами) позволяет LLM более качественно решать задачи ответов на вопросы по трехмерной сцене, ее описания и поиска объектов на ней.

Хочу отметить большую и самоотверженную работу над этой статьей первого автора - Татьяны Земсковой, аспирантки МФТИ и сотрудницы AIRI!

У статьи есть открытый код на GitHub, страничка на Хабр и HuggingFace.

Кроме того, новости про эту работу вышли в ТАСС, Comnews, Mail.RU.Наука, Компьютерра, InScience, ТГ-канале Института AIRI. Спасибо коллегам из AIRI за информационную поддержку!

#Papers #ICCV
🔥41
Forwarded from Институт AIRI
Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством ⤵️

Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.

Arxiv | GitHub | HuggingFace | Хабр
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Группа ученых из Китая выпустила обстоятельный обзор современных архитектур больших языковых моделей «Speed Always Wins» на основе почти 450 источников.

Статья: https://arxiv.org/pdf/2508.09834

В ней авторы коснулись ключевых технологий, лежащих в основе современных LLM, позволяющих ускорять модели и/или экономить память:

1) Линейное моделирование последовательностей с помощью линейного внимания (Attention), линейных RNN, моделей на основе пространства состояний (SSM).

2) Разреженное моделирование последовательностей с помощью, в том числе, разреженных модулей внимания.

3) Технологии на основе смеси экспертов (Mixture of Experts, MoE).

4) Технологии повышения эффективности модулей внимания типа Flash Attention.

5) Гибридные архитектуры.

6) Набирающие популярность Диффузионные LLM (DLLM).

Отдельно отмечены особенности применения различных архитектур для обработки и распознавания изображений, аудио, мультимодальных данных.

GitHub: https://github.com/weigao266/Awesome-Efficient-Arch

#References
🔥1
Всем привет из Белгорода! Город сияет несмотря ни на что!

#Activities
12🔥4👏3
Навестил БГТУ им. В. Г. Шухова, где я учился и проработал много лет, завершил историю с МИПами (совместными с Технологом Малыми инновационными предприятиями).

В механическом корпусе появилась памятная табличка основателю кафедры Техническая кибернетика - Василию Григорьевичу Рубанову.

Университету тяжело, но он держится. Желаю Технологу успехов и побед!
8🔥5👍2
Несколько дней назад вышла новая мультимодальная большая языковая модель (MLLM) от Alibaba Ovis2.5 (как 9B, так и маленькая 2B), превосходящая Qwen2.5-VL-7B даже для маленькой 2B-версии. 9B-версия - превосходит GPT-4o на так называемых STEM-бенчмарках OpenCompas, MMMU, MathVista, OCRBench v2, ChartQA Pro, BLINK

Ovis2.5 Technical Report https://arxiv.org/html/2508.11737v1
Код https://github.com/AIDC-AI/Ovis?tab=readme-ov-file
Модели https://huggingface.co/AIDC-AI/Ovis2.5-9B

#References
1
🎓Семинар 1. Мультимодальное представление сцены для навигации интеллектуального агента | Татьяна Земскова

Задача навигации является одной из основных задач для интеллектуальных агентов. Для эффективного взаимодействия с человеком робот должен понимать сложные текстовые инструкции, сформулированные на естественном языке, и мочь доезжать до любого объекта по его текстовому описанию.

На семинаре аспирантка нашего Центра расскажет о различных представлениях сцен и особенностях их использования при решении задачи навигации. В частности, рассмотрит методы навигации на основе 3D карт знаний и последовательностей изображений.

Наконец, будет рассмотрена разработанная командой Центра модель OVSegDT — лёгкая трансформерная VLA архитектура, позволяющая осуществлять навигацию до объектов, чья категория задана текстом.

👉🏻 Дата: 4.09.25, четверг в 17:00
📹 Трансляция: Youtube или ВК

🎉 Уже завтра возобновляем наши еженедельные семинары. Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

#семинары #CV
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤‍🔥11
Напишу про относительно недавнее событие, которое состоялось две субботы назад: довелось поучаствовать в Yandex Research Summit.

Коллеги, в том числе, рассказали про свежие методы анализа табличных данных: нейросетевой подход TabM, фундаментальную модель TabPFN2, фундаментальную графовую модель для работы с табличными данными G2T-FM, а также их исследование на различных табличных и графовых бенчмарках.

Было также много других интересных докладов и неформального общения.

Получилось интересно!

#Activities #References