NEW BOT Телеграм, страница

iMapDAY

Еще один мой выпускник 2025 года из нашей магистратуры в МФТИ - Роман Титков.

Тема его диплома: «Семантическая реконструкция 3D-сцен в реальном времени с использованием гауссовского сплаттинга».

По этой теме у Романа получились многообещающие результаты, которые мы развиваем сейчас вместе с Центром робототехники Сбера в рамках работы LEG-SLAM . Он разработал оригинальный подход по сжатию визуально-языковых признаков и добавления их в методы гауссовского сплаттинга, позволяющие задавать запросы на естественном языке к трехмерной карте. Статья по этой теме была принята на конференцию Neuroinformatics-2025.

Кроме того, он успел поучаствовать в написании нашей флагманской статьи BBQ , принятой на конференцию ICRA (A*).

Присущие Роману старательная работа с кодом, методичность в решении самых сложных задач, умение грамотно распределять время могли бы пригодиться ему в аспирантуре, если бы он решил продолжать академический трек.

#Person #Papers

🔥6🤨1

1.69K viewsedited 22:53

iMapDAY

Наконец-то могу написать про нашу крутую публикацию, принятую на топовую конференцию ICCV'25 - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding (Tatiana Zemskova, Dmitry Yudin). В этой работе мы показали, что эффективное кодирование графа 3D-сцены (в том числе, семантических связей между объектами) позволяет LLM более качественно решать задачи ответов на вопросы по трехмерной сцене, ее описания и поиска объектов на ней.

Хочу отметить большую и самоотверженную работу над этой статьей первого автора - Татьяны Земсковой, аспирантки МФТИ и сотрудницы AIRI!

У статьи есть открытый код на GitHub, страничка на Хабр и HuggingFace.

Кроме того, новости про эту работу вышли в ТАСС, Comnews, Mail.RU.Наука, Компьютерра, InScience, ТГ-канале Института AIRI. Спасибо коллегам из AIRI за информационную поддержку!

#Papers #ICCV

arXiv.org

3DGraphLLM: Combining Semantic Graphs and Large Language Models...

A 3D scene graph represents a compact scene model by capturing both the objects present and the semantic relationships between them, making it a promising structure for robotic applications. To...

🔥4❤1

574 viewsedited 13:13

iMapDAY

Forwarded from Институт AIRI

Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством

⤵️

Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.

Arxiv | GitHub | HuggingFace | Хабр

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

354 views13:13

iMapDAY

Выступил на радио Маяк в подкасте Александра Пушного "Физики и лирики. Цифровой мир". Обсудили как языковые модели учатся понимать трёхмерные сцены. Конечно, непривычно по телефону участвовать в подобных передачах, и связь не очень стабильна.

https://smotrim.ru/audio/2858864

#Activities

smotrim.ru

Физики и лирики. Цифровой мир. Как языковые модели учатся понимать трёхмерные сцены: слушать аудио на Smotrim

Если раньше языковые модели могли лишь обрабатывать текст, то теперь они учатся «видеть» пространство во всём его многообразии. Как языковые модели осваивают искусство понимания трехмерного пространства, и, какие возможности это открывает перед человечеством…

🔥10👀5👍1

339 viewsedited 10:33

iMapDAY

Группа ученых из Китая выпустила обстоятельный обзор современных архитектур больших языковых моделей «Speed Always Wins» на основе почти 450 источников.

Статья: https://arxiv.org/pdf/2508.09834

В ней авторы коснулись ключевых технологий, лежащих в основе современных LLM, позволяющих ускорять модели и/или экономить память:

1) Линейное моделирование последовательностей с помощью линейного внимания (Attention), линейных RNN, моделей на основе пространства состояний (SSM).

2) Разреженное моделирование последовательностей с помощью, в том числе, разреженных модулей внимания.

3) Технологии на основе смеси экспертов (Mixture of Experts, MoE).

4) Технологии повышения эффективности модулей внимания типа Flash Attention.

5) Гибридные архитектуры.

6) Набирающие популярность Диффузионные LLM (DLLM).

Отдельно отмечены особенности применения различных архитектур для обработки и распознавания изображений, аудио, мультимодальных данных.

GitHub: https://github.com/weigao266/Awesome-Efficient-Arch

#References

🔥1

444 views23:21

iMapDAY

Всем привет из Белгорода! Город сияет несмотря ни на что!

#Activities

❤12🔥4👏3

272 views18:34

iMapDAY

Навестил БГТУ им. В. Г. Шухова, где я учился и проработал много лет, завершил историю с МИПами (совместными с Технологом Малыми инновационными предприятиями).

В механическом корпусе появилась памятная табличка основателю кафедры Техническая кибернетика - Василию Григорьевичу Рубанову.

Университету тяжело, но он держится. Желаю Технологу успехов и побед!

❤8🔥5👍2

333 views18:51

iMapDAY

Несколько дней назад вышла новая мультимодальная большая языковая модель (MLLM) от Alibaba Ovis2.5 (как 9B, так и маленькая 2B), превосходящая Qwen2.5-VL-7B даже для маленькой 2B-версии. 9B-версия - превосходит GPT-4o на так называемых STEM-бенчмарках OpenCompas, MMMU, MathVista, OCRBench v2, ChartQA Pro, BLINK

Ovis2.5 Technical Report https://arxiv.org/html/2508.11737v1
Код https://github.com/AIDC-AI/Ovis?tab=readme-ov-file
Модели https://huggingface.co/AIDC-AI/Ovis2.5-9B

#References

❤1

419 views07:56

iMapDAY

Forwarded from Center for Cognitive Modeling

🎓 — Семинар 1. Мультимодальное представление сцены для навигации интеллектуального агента | Татьяна Земскова

Задача навигации является одной из основных задач для интеллектуальных агентов. Для эффективного взаимодействия с человеком робот должен понимать сложные текстовые инструкции, сформулированные на естественном языке, и мочь доезжать до любого объекта по его текстовому описанию.

На семинаре аспирантка нашего Центра расскажет о различных представлениях сцен и особенностях их использования при решении задачи навигации. В частности, рассмотрит методы навигации на основе 3D карт знаний и последовательностей изображений.

Наконец, будет рассмотрена разработанная командой Центра модель OVSegDT — лёгкая трансформерная VLA архитектура, позволяющая осуществлять навигацию до объектов, чья категория задана текстом.

👉🏻 Дата: 4.09.25, четверг в 17:00
📹 Трансляция: Youtube или ВК

🎉 Уже завтра возобновляем наши еженедельные семинары. Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

#семинары #CV

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤‍🔥1❤1

253 views16:06

iMapDAY

Напишу про относительно недавнее событие, которое состоялось две субботы назад: довелось поучаствовать в Yandex Research Summit.

Коллеги, в том числе, рассказали про свежие методы анализа табличных данных: нейросетевой подход TabM, фундаментальную модель TabPFN2, фундаментальную графовую модель для работы с табличными данными G2T-FM, а также их исследование на различных табличных и графовых бенчмарках.

Было также много других интересных докладов и неформального общения.

Получилось интересно!

#Activities #References

342 views19:44

About

Blog

Apps

Platform