iMapDAY – Telegram
iMapDAY
267 subscribers
301 photos
29 videos
1 file
97 links
Сделал канал для размещения новостей от меня @yuddim и моей команды, занимающейся трехмерным компьютерным зрением роботов и автомобилей. Также давно хотелось собирать в одном месте интересные для меня научные публикации и технологические заметки.
Download Telegram
Несколько дней назад вышла новая мультимодальная большая языковая модель (MLLM) от Alibaba Ovis2.5 (как 9B, так и маленькая 2B), превосходящая Qwen2.5-VL-7B даже для маленькой 2B-версии. 9B-версия - превосходит GPT-4o на так называемых STEM-бенчмарках OpenCompas, MMMU, MathVista, OCRBench v2, ChartQA Pro, BLINK

Ovis2.5 Technical Report https://arxiv.org/html/2508.11737v1
Код https://github.com/AIDC-AI/Ovis?tab=readme-ov-file
Модели https://huggingface.co/AIDC-AI/Ovis2.5-9B

#References
1
🎓Семинар 1. Мультимодальное представление сцены для навигации интеллектуального агента | Татьяна Земскова

Задача навигации является одной из основных задач для интеллектуальных агентов. Для эффективного взаимодействия с человеком робот должен понимать сложные текстовые инструкции, сформулированные на естественном языке, и мочь доезжать до любого объекта по его текстовому описанию.

На семинаре аспирантка нашего Центра расскажет о различных представлениях сцен и особенностях их использования при решении задачи навигации. В частности, рассмотрит методы навигации на основе 3D карт знаний и последовательностей изображений.

Наконец, будет рассмотрена разработанная командой Центра модель OVSegDT — лёгкая трансформерная VLA архитектура, позволяющая осуществлять навигацию до объектов, чья категория задана текстом.

👉🏻 Дата: 4.09.25, четверг в 17:00
📹 Трансляция: Youtube или ВК

🎉 Уже завтра возобновляем наши еженедельные семинары. Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

#семинары #CV
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤‍🔥11
Напишу про относительно недавнее событие, которое состоялось две субботы назад: довелось поучаствовать в Yandex Research Summit.

Коллеги, в том числе, рассказали про свежие методы анализа табличных данных: нейросетевой подход TabM, фундаментальную модель TabPFN2, фундаментальную графовую модель для работы с табличными данными G2T-FM, а также их исследование на различных табличных и графовых бенчмарках.

Было также много других интересных докладов и неформального общения.

Получилось интересно!

#Activities #References
Выступил на Media Technology Summit, который собрал представительный список российских ученых в области компьютерного зрения. Рассказал про построение динамических графов 3D сцен и насколько это может быть полезно для робототехники.

Отдельно должен отметить эффектную площадку проведения саммита - Отель Метрополь в Москве.


#Activities
🔥5
К нам приехали свежие видеокарты RTX5060ti с 16 Гб видеопамяти. Удивительно, но они совместимы не со всеми материнскими платами!

💻 Помимо виртуальных серверов мы любим делать для ребят физические рабочие места, иногда это очень выручает.

#MIPT
🔥3🎉1
Forwarded from Институт AIRI
Провели «ИИ–ЗАМАН» в Казани, делимся впечатлениями ⤵️

Научная конференция стала частью форума Kazan Digital Week, деловая программа которого включает в себя более 160 секций, структурированных по 10 тематическим направлениям. В форуме приняли участие 1,2 тысячи спикеров из более, чем 70 стран. На «ИИ–ЗАМАН» были представлены участники практически из всех регионов России, где ведутся исследования в области ИИ. Есть и иностранные участники, среди которых представители США, Китая и Индии.

17 сентября на конференции «ИИ–ЗАМАН», которую мы организовали совместно с Академией наук Республики Татарстан при поддержке Ассоциации содействия цифровому развитию Республики Татарстан и Авито, выступили директор лаборатории FusionBrain Андрей Кузнецов, руководитель группы «Прикладное NLP» Елена Тутубалина, руководитель лаборатории Safe AI Lab AIRI-МТУСИ Олег Рогов, генеральный директор AIRI Иван Оселедец, научный сотрудник группы «Воплощённые агенты» Татьяна Земскова и директор лаборатории когнитивных систем ИИ Института AIRI Александр Панов. Также инженер-исследователь группы «Прикладное NLP» AIRI Михаил Чайчук представил проект «The Benefits of Query-Based KGQA Systems for Complex and Temporal Questions in LLM Era» на постерной сессии.

📎Подробнее про конференцию «ИИ–ЗАМАН» читайте в материале по итогам пресс-конференции.

Делимся фотографиями из Казани!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2