Выступил на радио Маяк в подкасте Александра Пушного "Физики и лирики. Цифровой мир". Обсудили как языковые модели учатся понимать трёхмерные сцены. Конечно, непривычно по телефону участвовать в подобных передачах, и связь не очень стабильна.
https://smotrim.ru/audio/2858864
#Activities
https://smotrim.ru/audio/2858864
#Activities
smotrim.ru
Физики и лирики. Цифровой мир. Как языковые модели учатся понимать трёхмерные сцены: слушать аудио на Smotrim
Если раньше языковые модели могли лишь обрабатывать текст, то теперь они учатся «видеть» пространство во всём его многообразии. Как языковые модели осваивают искусство понимания трехмерного пространства, и, какие возможности это открывает перед человечеством…
🔥10👀5👍1
Группа ученых из Китая выпустила обстоятельный обзор современных архитектур больших языковых моделей «Speed Always Wins» на основе почти 450 источников.
Статья: https://arxiv.org/pdf/2508.09834
В ней авторы коснулись ключевых технологий, лежащих в основе современных LLM, позволяющих ускорять модели и/или экономить память:
1) Линейное моделирование последовательностей с помощью линейного внимания (Attention), линейных RNN, моделей на основе пространства состояний (SSM).
2) Разреженное моделирование последовательностей с помощью, в том числе, разреженных модулей внимания.
3) Технологии на основе смеси экспертов (Mixture of Experts, MoE).
4) Технологии повышения эффективности модулей внимания типа Flash Attention.
5) Гибридные архитектуры.
6) Набирающие популярность Диффузионные LLM (DLLM).
Отдельно отмечены особенности применения различных архитектур для обработки и распознавания изображений, аудио, мультимодальных данных.
GitHub: https://github.com/weigao266/Awesome-Efficient-Arch
#References
Статья: https://arxiv.org/pdf/2508.09834
В ней авторы коснулись ключевых технологий, лежащих в основе современных LLM, позволяющих ускорять модели и/или экономить память:
1) Линейное моделирование последовательностей с помощью линейного внимания (Attention), линейных RNN, моделей на основе пространства состояний (SSM).
2) Разреженное моделирование последовательностей с помощью, в том числе, разреженных модулей внимания.
3) Технологии на основе смеси экспертов (Mixture of Experts, MoE).
4) Технологии повышения эффективности модулей внимания типа Flash Attention.
5) Гибридные архитектуры.
6) Набирающие популярность Диффузионные LLM (DLLM).
Отдельно отмечены особенности применения различных архитектур для обработки и распознавания изображений, аудио, мультимодальных данных.
GitHub: https://github.com/weigao266/Awesome-Efficient-Arch
#References
🔥1
Навестил БГТУ им. В. Г. Шухова, где я учился и проработал много лет, завершил историю с МИПами (совместными с Технологом Малыми инновационными предприятиями).
В механическом корпусе появилась памятная табличка основателю кафедры Техническая кибернетика - Василию Григорьевичу Рубанову.
Университету тяжело, но он держится. Желаю Технологу успехов и побед!
В механическом корпусе появилась памятная табличка основателю кафедры Техническая кибернетика - Василию Григорьевичу Рубанову.
Университету тяжело, но он держится. Желаю Технологу успехов и побед!
❤8🔥5👍2
Несколько дней назад вышла новая мультимодальная большая языковая модель (MLLM) от Alibaba Ovis2.5 (как 9B, так и маленькая 2B), превосходящая Qwen2.5-VL-7B даже для маленькой 2B-версии. 9B-версия - превосходит GPT-4o на так называемых STEM-бенчмарках OpenCompas, MMMU, MathVista, OCRBench v2, ChartQA Pro, BLINK
Ovis2.5 Technical Report https://arxiv.org/html/2508.11737v1
Код https://github.com/AIDC-AI/Ovis?tab=readme-ov-file
Модели https://huggingface.co/AIDC-AI/Ovis2.5-9B
#References
Ovis2.5 Technical Report https://arxiv.org/html/2508.11737v1
Код https://github.com/AIDC-AI/Ovis?tab=readme-ov-file
Модели https://huggingface.co/AIDC-AI/Ovis2.5-9B
#References
❤1
Forwarded from Center for Cognitive Modeling
🎓 — Семинар 1. Мультимодальное представление сцены для навигации интеллектуального агента | Татьяна Земскова
Задача навигации является одной из основных задач для интеллектуальных агентов. Для эффективного взаимодействия с человеком робот должен понимать сложные текстовые инструкции, сформулированные на естественном языке, и мочь доезжать до любого объекта по его текстовому описанию.
На семинаре аспирантка нашего Центра расскажет о различных представлениях сцен и особенностях их использования при решении задачи навигации. В частности, рассмотрит методы навигации на основе 3D карт знаний и последовательностей изображений.
Наконец, будет рассмотрена разработанная командой Центра модель OVSegDT — лёгкая трансформерная VLA архитектура, позволяющая осуществлять навигацию до объектов, чья категория задана текстом.
👉🏻 Дата: 4.09.25, четверг в 17:00
📹 Трансляция: Youtube или ВК
🎉 Уже завтра возобновляем наши еженедельные семинары. Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #CV
Задача навигации является одной из основных задач для интеллектуальных агентов. Для эффективного взаимодействия с человеком робот должен понимать сложные текстовые инструкции, сформулированные на естественном языке, и мочь доезжать до любого объекта по его текстовому описанию.
На семинаре аспирантка нашего Центра расскажет о различных представлениях сцен и особенностях их использования при решении задачи навигации. В частности, рассмотрит методы навигации на основе 3D карт знаний и последовательностей изображений.
Наконец, будет рассмотрена разработанная командой Центра модель OVSegDT — лёгкая трансформерная VLA архитектура, позволяющая осуществлять навигацию до объектов, чья категория задана текстом.
👉🏻 Дата: 4.09.25, четверг в 17:00
📹 Трансляция: Youtube или ВК
#семинары #CV
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤🔥1❤1
Напишу про относительно недавнее событие, которое состоялось две субботы назад: довелось поучаствовать в Yandex Research Summit.
Коллеги, в том числе, рассказали про свежие методы анализа табличных данных: нейросетевой подход TabM, фундаментальную модель TabPFN2, фундаментальную графовую модель для работы с табличными данными G2T-FM, а также их исследование на различных табличных и графовых бенчмарках.
Было также много других интересных докладов и неформального общения.
Получилось интересно!
#Activities #References
Коллеги, в том числе, рассказали про свежие методы анализа табличных данных: нейросетевой подход TabM, фундаментальную модель TabPFN2, фундаментальную графовую модель для работы с табличными данными G2T-FM, а также их исследование на различных табличных и графовых бенчмарках.
Было также много других интересных докладов и неформального общения.
Получилось интересно!
#Activities #References