iMapDAY – Telegram
iMapDAY
267 subscribers
292 photos
29 videos
1 file
95 links
Сделал канал для размещения новостей от меня @yuddim и моей команды, занимающейся трехмерным компьютерным зрением роботов и автомобилей. Также давно хотелось собирать в одном месте интересные для меня научные публикации и технологические заметки.
Download Telegram
В этом году МФТИ снова стал площадкой для проведения Олимпиады Я-Профессионал по направлению "Искусственный интеллект"!

Участие в Олимпиаде особенно полезно для студентов, которые хотят получить бонусы для поступления в Магистратуру и Аспирантуру, в том числе, к нам в МФТИ.

Мы постараемся снова подготовить интересные задачи и желаем участникам успехов в их решении!

Материалы с заданиями прошлых лет можно посмотреть по ссылке.
👍2
Поделюсь хорошим учебным курсом
Forwarded from Data Secrets
О, легендарный Эндрю Ын кажется проведет открытый бесплатный курс по Deep Learning в Стэнфорде

Все лекции можно будет смотреть на YouTube. Первая вышла вчера, вот ссылка. Эндрю уже довольно давно ничего такого не вел, так что это настоящий подарок.

Все презентации и материалы будут выкладывать здесь. В программе обещают довольно подробную теорию по нейросетям, от самых основ DL до LLM, RL, агентов, RAG и мультимодальных моделей. Практические материалы также должны быть доступны, включая (вроде как) домашки.

Вот и нашлось занятие на выходные
🔥1
Media is too big
VIEW IN TELEGRAM
Напишу что-нибудь новенькое про методы 3D компьютерного зрения:

Позавчера авторы из Microsoft Research, Harvard и Tsinghua University выложили код SOTA-модели MoGe-2 для реконструкции метрической карты глубин и карты нормалей из монокулярных изображений, статья про которую была принята на Neurips 2025. Демо выглядит впечатляющим. Эта модель - развитие метода MoGe, представленного на СVPR2025.

Статья: MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details, Neurips 2025, https://arxiv.org/abs/2507.02546
Проект: https://wangrc.site/MoGe2Page/
Код: https://github.com/microsoft/moge

В качестве бонуса, приведу также ссылку на другую свежую модель UniK3D, позволяющую делать консистентную реконструкцию карт глубин по монокулярной видеопоследовательности, статья про которую также была принята на CVPR2025

#References
🔥3🤯2
Forwarded from Институт AIRI
#AIRI_Seminars в эфире! Подключайтесь к трансляции на YouTube или в VK Видео🍿
1
Провел сегодня научный семинар AIRI - на нем Дмитрий Еремеев из Yandex Research рассказал про их свежую фундаментальную графовую модель GraphPFN (статья)(код). Трансформерные архитектуры доминируют теперь и в сфере анализа графов.

#References
🔥6
Недавно появилась новая линейка открытых мультимодальных моделей Qwen3-VL и документация на них.

Из ее особенностей - продвинутое пространственное восприятие. Модель может учитывать положения объектов, ракурсы съемки и перекрытия, обеспечивая 2D и 3D object grounding для пространственных рассуждений и воплощенного ИИ.

Код: https://github.com/QwenLM/Qwen3-VL
Документация: https://alibabacloud.com/help/en/model-studio/user-guide/vision/
Демо: https://huggingface.co/spaces/Qwen/Qwen3-VL-Demo
Чат: https://chat.qwen.ai/?models=qwen3-vl-plus

#References
🔥2
Наша команда поучаствовала этой осенью в свежей конференции AI-ZAMAN

#Activities
🤖 — Недавно в Казани прошла научная конференция ИИ-ЗАМАН: делимся фотографиями и статьями!

Конференция объединила исследователей ИИ со всей России. И наши ребята внесли свой вклад, представив работы Центра и партнёров:

🪼Татьяна Земскова с работой "Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph"
Подход под названием BBQ (Beyond Bare Queries) помогает в решении проблемы автономных агентов по поиску объектов, неоднозначно описанных на естественном языке. Он создает представление 3D-сцены в виде графа с метрическими и семантическими пространственными связями и задействует крупную языковую модель в качестве интерфейса «человек-агент» через наш алгоритм дедуктивного анализа сцены.

🪼Анатолий Онищенко с работой "LookPlanGraph: Embodied Instruction Following Method with VLM Graph Augmentation"
Метод, который объединяет графовое планирование с динамическим обновлением сцены, позволяет роботу адаптироваться к изменяющейся среде и корректировать план действий в процессе выполнения задачи.

🪼Адитья Нарендра с работой "M3PO: Massively Multi-Task Model-Based Policy Optimzation"
Новый метод M3PO, расширяющий классическую архитектуру Proximal Policy Optimization (PPO), в которой объединены мультизадачность и модель мира, которую робот выучивает в процессе взаимодействия при онлайн-обучении. В результате метод обеспечивает быстрое обучение компактных с точки зрения количества параметров стратегий, пригодных для быстрого развертывания на робототехнических манипуляторах.

🪼Григорий Горбов с работой "CrafText Benchmark: Advancing Instruction Following in Complex Multimodal Open-Ended World"
CrafText — бенчмарк для оценки способности агентов следовать инструкциям в мультимодальной среде с разнообразными заданиями и динамическим взаимодействием. CrafText включает 3924 инструкции, содержащие 3423 уникальных слова, и охватывает задачи из разных областей.

🪼Ева Бакаева с работой "AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment"
Обработка неоднозначных инструкций в реальных условиях представляет сложность для LLM. Существуют различные методы выявления неоднозначности задач, однако их сравнение затруднено из-за использования разных наборов данных и отсутствия универсального эталона. Решить эту проблему поможет AmbiK (Ambiguous Tasks in Kitchen Environment) — полностью текстовый набор данных, содержащий неоднозначные инструкции, предназначенные для робота в кухонной среде.

#CV #VLM #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
И наша пара статей вошла в сборник трудов конференции Нейроинформатика-2025 в Springer:
- GenLab: Automatic Multimodal Dataset Editor Using Diffusion Inpainting https://link.springer.com/chapter/10.1007/978-3-032-07690-8_18 и
- Efficient Compression of Vision–Language Patch Features for Zero-Shot Segmentation https://link.springer.com/chapter/10.1007/978-3-032-07690-8_20

#Papers
Уважаемые коллеги!

Опубликована информация о доступе к электронной версии сборника 📘
Advances in Neural Computation, Machine Learning, and Cognitive Research IX
Информация о сборнике доступена по ссылке на платформе Springer:
👉 https://link.springer.com/book/10.1007/978-3-032-07690-8

#сборникspringer
#нейроинформатика2025
В посте — финалисты по направлению «Город»

Это те, кто знают, как менять мир своим подходом.

🔴 В карточках определены все команды, выбранные нашими экспертами

И также напомним, что всех победителей объявим 25 октября на Церемонии награждения, не забудь позвать с собой всех близких❗️

По всем интересующим вопросам можно обратиться к своим модераторам.

💥 @leaders_hack
Please open Telegram to view this post
VIEW IN TELEGRAM