iMapDAY – Telegram
iMapDAY
267 subscribers
301 photos
29 videos
1 file
97 links
Сделал канал для размещения новостей от меня @yuddim и моей команды, занимающейся трехмерным компьютерным зрением роботов и автомобилей. Также давно хотелось собирать в одном месте интересные для меня научные публикации и технологические заметки.
Download Telegram
Группа ученых из Китая выпустила обстоятельный обзор современных архитектур больших языковых моделей «Speed Always Wins» на основе почти 450 источников.

Статья: https://arxiv.org/pdf/2508.09834

В ней авторы коснулись ключевых технологий, лежащих в основе современных LLM, позволяющих ускорять модели и/или экономить память:

1) Линейное моделирование последовательностей с помощью линейного внимания (Attention), линейных RNN, моделей на основе пространства состояний (SSM).

2) Разреженное моделирование последовательностей с помощью, в том числе, разреженных модулей внимания.

3) Технологии на основе смеси экспертов (Mixture of Experts, MoE).

4) Технологии повышения эффективности модулей внимания типа Flash Attention.

5) Гибридные архитектуры.

6) Набирающие популярность Диффузионные LLM (DLLM).

Отдельно отмечены особенности применения различных архитектур для обработки и распознавания изображений, аудио, мультимодальных данных.

GitHub: https://github.com/weigao266/Awesome-Efficient-Arch

#References
🔥1
Всем привет из Белгорода! Город сияет несмотря ни на что!

#Activities
12🔥4👏3
Навестил БГТУ им. В. Г. Шухова, где я учился и проработал много лет, завершил историю с МИПами (совместными с Технологом Малыми инновационными предприятиями).

В механическом корпусе появилась памятная табличка основателю кафедры Техническая кибернетика - Василию Григорьевичу Рубанову.

Университету тяжело, но он держится. Желаю Технологу успехов и побед!
8🔥5👍2
Несколько дней назад вышла новая мультимодальная большая языковая модель (MLLM) от Alibaba Ovis2.5 (как 9B, так и маленькая 2B), превосходящая Qwen2.5-VL-7B даже для маленькой 2B-версии. 9B-версия - превосходит GPT-4o на так называемых STEM-бенчмарках OpenCompas, MMMU, MathVista, OCRBench v2, ChartQA Pro, BLINK

Ovis2.5 Technical Report https://arxiv.org/html/2508.11737v1
Код https://github.com/AIDC-AI/Ovis?tab=readme-ov-file
Модели https://huggingface.co/AIDC-AI/Ovis2.5-9B

#References
1
🎓Семинар 1. Мультимодальное представление сцены для навигации интеллектуального агента | Татьяна Земскова

Задача навигации является одной из основных задач для интеллектуальных агентов. Для эффективного взаимодействия с человеком робот должен понимать сложные текстовые инструкции, сформулированные на естественном языке, и мочь доезжать до любого объекта по его текстовому описанию.

На семинаре аспирантка нашего Центра расскажет о различных представлениях сцен и особенностях их использования при решении задачи навигации. В частности, рассмотрит методы навигации на основе 3D карт знаний и последовательностей изображений.

Наконец, будет рассмотрена разработанная командой Центра модель OVSegDT — лёгкая трансформерная VLA архитектура, позволяющая осуществлять навигацию до объектов, чья категория задана текстом.

👉🏻 Дата: 4.09.25, четверг в 17:00
📹 Трансляция: Youtube или ВК

🎉 Уже завтра возобновляем наши еженедельные семинары. Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

#семинары #CV
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤‍🔥11
Напишу про относительно недавнее событие, которое состоялось две субботы назад: довелось поучаствовать в Yandex Research Summit.

Коллеги, в том числе, рассказали про свежие методы анализа табличных данных: нейросетевой подход TabM, фундаментальную модель TabPFN2, фундаментальную графовую модель для работы с табличными данными G2T-FM, а также их исследование на различных табличных и графовых бенчмарках.

Было также много других интересных докладов и неформального общения.

Получилось интересно!

#Activities #References
Выступил на Media Technology Summit, который собрал представительный список российских ученых в области компьютерного зрения. Рассказал про построение динамических графов 3D сцен и насколько это может быть полезно для робототехники.

Отдельно должен отметить эффектную площадку проведения саммита - Отель Метрополь в Москве.


#Activities
🔥5