Про Мега-проекты в сфере Искусственного интеллекта
У статьи Google про флагманскую нейросетевую модель Gemini 2.5, которая вышла на прошлой неделе на Arxiv, 3295 авторов!
Вот ссылка на саму статью: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
Теперь уже традиционно для подобных препринтов - в статье нет ни схемы модели, ни формул. В основном описывается применение, возможности и ограничения.
#References
У статьи Google про флагманскую нейросетевую модель Gemini 2.5, которая вышла на прошлой неделе на Arxiv, 3295 авторов!
Вот ссылка на саму статью: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
Теперь уже традиционно для подобных препринтов - в статье нет ни схемы модели, ни формул. В основном описывается применение, возможности и ограничения.
#References
❤2😁2🔥1
Forwarded from Center for Cognitive Modeling
🦾🔥👩🚀 — Объявляем набор на стажировку в области искусственного интеллекта и робототехники (Robotics, LLM, RL, CV, Planning)!
Оплачиваемая стажировка в Центре когнитивного моделирования Института ИИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.
На выбор предоставляется 14 проектов, которые включают в себя:
🔹 обучение с подкреплением
🔹 компьютерное зрение
🔹 планирование поведения и управление
🔹 большие языковые модели
🔹 и другое
Два шага для подачи заявки:
1️⃣ выбрать подходящий проект на сайте
2️⃣ заполнить форму
Стажировку можно совмещать с написанием диплома, но нельзя совмещать с другой работой или стажировкой. А после успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.
Прием заявок до 11 августа 2025 включительно!
Вопросы можно задать в сообщениях @fissun.
#стажировка
Оплачиваемая стажировка в Центре когнитивного моделирования Института ИИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.
На выбор предоставляется 14 проектов, которые включают в себя:
Два шага для подачи заявки:
Стажировку можно совмещать с написанием диплома, но нельзя совмещать с другой работой или стажировкой. А после успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.
Прием заявок до 11 августа 2025 включительно!
Вопросы можно задать в сообщениях @fissun.
#стажировка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Следующая по списку в рубрике отзывов - выпускница 2025 года из нашей магистратуры в МФТИ по профилю МТИИ - Ульяна Изместьева
Тема ее диплома: «Применение генеративных моделей для аугментации обучающих данных в задачах сегментации изображений».
По этой теме мы сделали неплохую статью GenLab, принятую на Neuroinformatics-2025. А также успели посотрудничать с группой FusionBrain в AIRI.
Ульяна много участвовала в индустриальных проектах, связанных с распознаванием изображений для роботов и автомобилей от ООО ИнтеграНТ (Препринт) и ООО Вега-ГАЗ. В них мы четко прочувствовали, что часто требуется быстро готовить собственные датасеты с редкими категориями, на которых нужно учить нейронные сети. И решить эту задачу могут помочь диффузионные генеративные модели.
В самом начале магистратуры Ульяна также поучаствовала в написании интересной робототехнической статьи Rozumformer в журнале Q1, где наша команда реализовала оригинальный подход Real-to-Sim-to-Real для управления манипулятором.
#Person #Papers
Тема ее диплома: «Применение генеративных моделей для аугментации обучающих данных в задачах сегментации изображений».
По этой теме мы сделали неплохую статью GenLab, принятую на Neuroinformatics-2025. А также успели посотрудничать с группой FusionBrain в AIRI.
Ульяна много участвовала в индустриальных проектах, связанных с распознаванием изображений для роботов и автомобилей от ООО ИнтеграНТ (Препринт) и ООО Вега-ГАЗ. В них мы четко прочувствовали, что часто требуется быстро готовить собственные датасеты с редкими категориями, на которых нужно учить нейронные сети. И решить эту задачу могут помочь диффузионные генеративные модели.
В самом начале магистратуры Ульяна также поучаствовала в написании интересной робототехнической статьи Rozumformer в журнале Q1, где наша команда реализовала оригинальный подход Real-to-Sim-to-Real для управления манипулятором.
#Person #Papers
🔥6❤1🤨1
Следующая выпускница 2025 года из нашей магистратуры в МФТИ - Маргарита Кичик.
Тема ее диплома: «Распознавание физических свойств объектов трехмерных сцен по их RGB-изображениям».
Этой темой Маргарита занималась при выполнении проекта с Центром робототехники Сбера. Очень надеюсь, что некоторые части диплома превратятся в ближайшее время в хорошую научную статью.
Один из подходов, которым можно решить эту задачу - нейросетевые методы обнаружения и сегментации объектов на изображениями. Здесь Маргарите удалось дать свой вклад в индустриальную работу по детекции объектов на конвейерной ленте WaRP, популярной на Kaggle и опубликованной в журнале EAAI (Q1). Также она поучаствовала в нашем интересном исследовании вместе с AIRI в области активной сегментации SegmaTron, опубликованном в журнале Neurocomputing (Q1). Кроме того, удалось получить полезные результаты для нашего проекта STRLRobotics, в том числе, чтобы мобильный манипулятор открывал двери. Про это у нас есть статья в LNCS (Q2).
#Person #Papers
Тема ее диплома: «Распознавание физических свойств объектов трехмерных сцен по их RGB-изображениям».
Этой темой Маргарита занималась при выполнении проекта с Центром робототехники Сбера. Очень надеюсь, что некоторые части диплома превратятся в ближайшее время в хорошую научную статью.
Один из подходов, которым можно решить эту задачу - нейросетевые методы обнаружения и сегментации объектов на изображениями. Здесь Маргарите удалось дать свой вклад в индустриальную работу по детекции объектов на конвейерной ленте WaRP, популярной на Kaggle и опубликованной в журнале EAAI (Q1). Также она поучаствовала в нашем интересном исследовании вместе с AIRI в области активной сегментации SegmaTron, опубликованном в журнале Neurocomputing (Q1). Кроме того, удалось получить полезные результаты для нашего проекта STRLRobotics, в том числе, чтобы мобильный манипулятор открывал двери. Про это у нас есть статья в LNCS (Q2).
#Person #Papers
🔥5🤨1
Продолжаю отзывы: следующая по списку - выпускница 2025 года из нашей магистратуры в МФТИ - Ольга Матыкина.
Тема ее диплома: «Разработка и исследование методов мультимодальной сегментации сцены».
По этой теме у нее получилась хорошая работа по применению фундаментальных моделей для 3D-обнаружения объектов на данных камер и радаров RCDINO, принятая в журнал Optical Memory and Neural Networks. В ходе кропотливых экспериментов мы прочувствовали, что без видеокарт уровня A100 80Гб какого-то результата добиться практически невозможно для подобных задач.
Ольга много участвовала в индустриальных проектах, связанных с сегментацией и обнаружением объектов на изображениях для роботов и автомобилей от ООО ИнтеграНТ (см. Препринт) и ООО Вега-ГАЗ (статья принята в журнал Труды МФТИ). Продемонстрировала отличные навыки в реализации методов ИИ в ROS2
#Person #Papers
Тема ее диплома: «Разработка и исследование методов мультимодальной сегментации сцены».
По этой теме у нее получилась хорошая работа по применению фундаментальных моделей для 3D-обнаружения объектов на данных камер и радаров RCDINO, принятая в журнал Optical Memory and Neural Networks. В ходе кропотливых экспериментов мы прочувствовали, что без видеокарт уровня A100 80Гб какого-то результата добиться практически невозможно для подобных задач.
Ольга много участвовала в индустриальных проектах, связанных с сегментацией и обнаружением объектов на изображениях для роботов и автомобилей от ООО ИнтеграНТ (см. Препринт) и ООО Вега-ГАЗ (статья принята в журнал Труды МФТИ). Продемонстрировала отличные навыки в реализации методов ИИ в ROS2
#Person #Papers
❤4🤨1
Еще один мой выпускник 2025 года из нашей магистратуры в МФТИ - Роман Титков.
Тема его диплома: «Семантическая реконструкция 3D-сцен в реальном времени с использованием гауссовского сплаттинга».
По этой теме у Романа получились многообещающие результаты, которые мы развиваем сейчас вместе с Центром робототехники Сбера в рамках работы LEG-SLAM. Он разработал оригинальный подход по сжатию визуально-языковых признаков и добавления их в методы гауссовского сплаттинга, позволяющие задавать запросы на естественном языке к трехмерной карте. Статья по этой теме была принята на конференцию Neuroinformatics-2025.
Кроме того, он успел поучаствовать в написании нашей флагманской статьи BBQ, принятой на конференцию ICRA (A*).
Присущие Роману старательная работа с кодом, методичность в решении самых сложных задач, умение грамотно распределять время могли бы пригодиться ему в аспирантуре, если бы он решил продолжать академический трек.
#Person #Papers
Тема его диплома: «Семантическая реконструкция 3D-сцен в реальном времени с использованием гауссовского сплаттинга».
По этой теме у Романа получились многообещающие результаты, которые мы развиваем сейчас вместе с Центром робототехники Сбера в рамках работы LEG-SLAM. Он разработал оригинальный подход по сжатию визуально-языковых признаков и добавления их в методы гауссовского сплаттинга, позволяющие задавать запросы на естественном языке к трехмерной карте. Статья по этой теме была принята на конференцию Neuroinformatics-2025.
Кроме того, он успел поучаствовать в написании нашей флагманской статьи BBQ, принятой на конференцию ICRA (A*).
Присущие Роману старательная работа с кодом, методичность в решении самых сложных задач, умение грамотно распределять время могли бы пригодиться ему в аспирантуре, если бы он решил продолжать академический трек.
#Person #Papers
🔥6🤨1
Наконец-то могу написать про нашу крутую публикацию, принятую на топовую конференцию ICCV'25 - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding (Tatiana Zemskova, Dmitry Yudin). В этой работе мы показали, что эффективное кодирование графа 3D-сцены (в том числе, семантических связей между объектами) позволяет LLM более качественно решать задачи ответов на вопросы по трехмерной сцене, ее описания и поиска объектов на ней.
Хочу отметить большую и самоотверженную работу над этой статьей первого автора - Татьяны Земсковой, аспирантки МФТИ и сотрудницы AIRI!
У статьи есть открытый код на GitHub, страничка на Хабр и HuggingFace.
Кроме того, новости про эту работу вышли в ТАСС, Comnews, Mail.RU.Наука, Компьютерра, InScience, ТГ-канале Института AIRI. Спасибо коллегам из AIRI за информационную поддержку!
#Papers #ICCV
Хочу отметить большую и самоотверженную работу над этой статьей первого автора - Татьяны Земсковой, аспирантки МФТИ и сотрудницы AIRI!
У статьи есть открытый код на GitHub, страничка на Хабр и HuggingFace.
Кроме того, новости про эту работу вышли в ТАСС, Comnews, Mail.RU.Наука, Компьютерра, InScience, ТГ-канале Института AIRI. Спасибо коллегам из AIRI за информационную поддержку!
#Papers #ICCV
arXiv.org
3DGraphLLM: Combining Semantic Graphs and Large Language Models...
A 3D scene graph represents a compact scene model by capturing both the objects present and the semantic relationships between them, making it a promising structure for robotic applications. To...
🔥4❤1
Forwarded from Институт AIRI
Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством ⤵️
Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.
Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.
Arxiv | GitHub | HuggingFace | Хабр
Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.
Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.
Arxiv | GitHub | HuggingFace | Хабр
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Выступил на радио Маяк в подкасте Александра Пушного "Физики и лирики. Цифровой мир". Обсудили как языковые модели учатся понимать трёхмерные сцены. Конечно, непривычно по телефону участвовать в подобных передачах, и связь не очень стабильна.
https://smotrim.ru/audio/2858864
#Activities
https://smotrim.ru/audio/2858864
#Activities
smotrim.ru
Физики и лирики. Цифровой мир. Как языковые модели учатся понимать трёхмерные сцены: слушать аудио на Smotrim
Если раньше языковые модели могли лишь обрабатывать текст, то теперь они учатся «видеть» пространство во всём его многообразии. Как языковые модели осваивают искусство понимания трехмерного пространства, и, какие возможности это открывает перед человечеством…
🔥10👀5👍1
Группа ученых из Китая выпустила обстоятельный обзор современных архитектур больших языковых моделей «Speed Always Wins» на основе почти 450 источников.
Статья: https://arxiv.org/pdf/2508.09834
В ней авторы коснулись ключевых технологий, лежащих в основе современных LLM, позволяющих ускорять модели и/или экономить память:
1) Линейное моделирование последовательностей с помощью линейного внимания (Attention), линейных RNN, моделей на основе пространства состояний (SSM).
2) Разреженное моделирование последовательностей с помощью, в том числе, разреженных модулей внимания.
3) Технологии на основе смеси экспертов (Mixture of Experts, MoE).
4) Технологии повышения эффективности модулей внимания типа Flash Attention.
5) Гибридные архитектуры.
6) Набирающие популярность Диффузионные LLM (DLLM).
Отдельно отмечены особенности применения различных архитектур для обработки и распознавания изображений, аудио, мультимодальных данных.
GitHub: https://github.com/weigao266/Awesome-Efficient-Arch
#References
Статья: https://arxiv.org/pdf/2508.09834
В ней авторы коснулись ключевых технологий, лежащих в основе современных LLM, позволяющих ускорять модели и/или экономить память:
1) Линейное моделирование последовательностей с помощью линейного внимания (Attention), линейных RNN, моделей на основе пространства состояний (SSM).
2) Разреженное моделирование последовательностей с помощью, в том числе, разреженных модулей внимания.
3) Технологии на основе смеси экспертов (Mixture of Experts, MoE).
4) Технологии повышения эффективности модулей внимания типа Flash Attention.
5) Гибридные архитектуры.
6) Набирающие популярность Диффузионные LLM (DLLM).
Отдельно отмечены особенности применения различных архитектур для обработки и распознавания изображений, аудио, мультимодальных данных.
GitHub: https://github.com/weigao266/Awesome-Efficient-Arch
#References
🔥1