Подробнее о новом бенчмарке для проверки долгосрочного планирования LLM в виртуальных RPG-мирaх — в блоге AIRI на Хабре ⤵️
HeroBench — это бенчмарк, выросший из студенческого проекта школы «Лето с AIRI». Основанный на MMORPG-песочнице Artifacts, он проверяет способность больших языковых моделей к сложному многошаговому планированию и выполнению комплексных задач в виртуальной среде.
Ведущий научный сотрудник, руководитель группы «Нейрокогнитивные архитектуры» Института AIRI Пётр Анохин и команда создали адаптированную версию среды, где агенты выполняют задачи по сбору ресурсов, крафту предметов и сражениям с монстрами. В тестировании приняли участие 25 открытых и проприетарных моделей, включая Gemini 2.5-Pro, Claude-4, Grok-4 и GPT-5. Это позволило определить, на какие современные LLM можно полагаться при планировании сложных процессов.
Команда, начавшая работу над бенчмарком ещё на школе: Роман Халиков, Сбер AGI NLP, МГУ, Виктор Волков, ТГУ и Стефан Ребриков, НИЦ Курчатовский институт, ВШЭ.
📎 Читайте по ссылке.
HeroBench — это бенчмарк, выросший из студенческого проекта школы «Лето с AIRI». Основанный на MMORPG-песочнице Artifacts, он проверяет способность больших языковых моделей к сложному многошаговому планированию и выполнению комплексных задач в виртуальной среде.
Ведущий научный сотрудник, руководитель группы «Нейрокогнитивные архитектуры» Института AIRI Пётр Анохин и команда создали адаптированную версию среды, где агенты выполняют задачи по сбору ресурсов, крафту предметов и сражениям с монстрами. В тестировании приняли участие 25 открытых и проприетарных моделей, включая Gemini 2.5-Pro, Claude-4, Grok-4 и GPT-5. Это позволило определить, на какие современные LLM можно полагаться при планировании сложных процессов.
Команда, начавшая работу над бенчмарком ещё на школе: Роман Халиков, Сбер AGI NLP, МГУ, Виктор Волков, ТГУ и Стефан Ребриков, НИЦ Курчатовский институт, ВШЭ.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤40
«Холодный старт» в рекомендательных системах требует нового подхода 🔖
Учёные Института AIRI сформулировали новый вызов в развитии рекомендательных систем — отсутствие единого подхода к выбору порога «холодного старта».
Анализ статей за последние 3 года на конференции RecSys показал: лишь 10% исследователей объясняют смысл фильтрации датасетов, и ни один не раскрывает обоснование выбранного порога.
Эффект «холодного старта» возникает, когда в системе появляется пользователь или товар с недостаточным числом взаимодействий. Правильный выбор порога фильтрации — ключ к качественным рекомендациям и корректным научным выводам. Сегодня чаще всего используют «5-core» фильтрацию (не менее 5 взаимодействий), но это решение часто принимается «на глаз».
Исследователи AIRI предложили методику автоматического определения оптимального порога, анализируя влияние числа взаимодействий на качество рекомендаций. Они протестировали популярные алгоритмы — SASRec, PureSVD, ItemKNN, EASER — на четырёх разнообразных датасетах (фильмы, косметика, искусство, пиво). Результаты показали, что оптимальный порог зависит от задачи и модели: например, SASRec требует в три раза больше взаимодействий, чем классические методы. Для честной оценки и воспроизводимости результатов важно обосновывать выбор порогов и использовать единые параметры фильтрации при сравнении моделей.
Работа была представлена на ведущей конференции ACM RecSys.
Научная статья | ТАСС
Учёные Института AIRI сформулировали новый вызов в развитии рекомендательных систем — отсутствие единого подхода к выбору порога «холодного старта».
Анализ статей за последние 3 года на конференции RecSys показал: лишь 10% исследователей объясняют смысл фильтрации датасетов, и ни один не раскрывает обоснование выбранного порога.
Эффект «холодного старта» возникает, когда в системе появляется пользователь или товар с недостаточным числом взаимодействий. Правильный выбор порога фильтрации — ключ к качественным рекомендациям и корректным научным выводам. Сегодня чаще всего используют «5-core» фильтрацию (не менее 5 взаимодействий), но это решение часто принимается «на глаз».
Исследователи AIRI предложили методику автоматического определения оптимального порога, анализируя влияние числа взаимодействий на качество рекомендаций. Они протестировали популярные алгоритмы — SASRec, PureSVD, ItemKNN, EASER — на четырёх разнообразных датасетах (фильмы, косметика, искусство, пиво). Результаты показали, что оптимальный порог зависит от задачи и модели: например, SASRec требует в три раза больше взаимодействий, чем классические методы. Для честной оценки и воспроизводимости результатов важно обосновывать выбор порогов и использовать единые параметры фильтрации при сравнении моделей.
Работа была представлена на ведущей конференции ACM RecSys.
Научная статья | ТАСС
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27
В Тэджоне прошла конференция IEEE International Symposium on Mixed and Augmented Reality (ISMAR) 2025
ISMAR — одна из ведущих международных площадок для обмена знаниями и опытом в области смешанной и дополненной реальности. Конференция собирает исследователей и практиков, которые представляют новейшие разработки в технологиях визуализации, взаимодействия и применения AR/VR в разных сферах.
В этом году Институт AIRI представлял Иннокентий Хумонен, научный сотрудник группы «ИИ в промышленности». Он представил статью “Automatic Image Translation of Long Ancient Egyptian Texts for Augmented Reality Applications”. Про результаты этого проекта мы рассказывали ранее.
Делимся фото из Южной Кореи!
ISMAR — одна из ведущих международных площадок для обмена знаниями и опытом в области смешанной и дополненной реальности. Конференция собирает исследователей и практиков, которые представляют новейшие разработки в технологиях визуализации, взаимодействия и применения AR/VR в разных сферах.
В этом году Институт AIRI представлял Иннокентий Хумонен, научный сотрудник группы «ИИ в промышленности». Он представил статью “Automatic Image Translation of Long Ancient Egyptian Texts for Augmented Reality Applications”. Про результаты этого проекта мы рассказывали ранее.
Делимся фото из Южной Кореи!
❤47
«Зачетку на стол, тянем билет»: нужен ли новый тест Тьюринга для ИИ — колонка в Forbes ⤵️
Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain Института AIRI, рассказывает:
⚫️ почему классический тест Тьюринга уже не отражает всех возможностей и ограничений современных ИИ-систем
⚫️ какие альтернативные методы оценки ИИ существуют и что они проверяют
⚫️ почему сравнивать ИИ с человеком — задача сложная и неоднозначная
⚫️ как мультимодальность и коллективный интеллект меняют подходы к оценке ИИ-систем
⚫️ зачем нужны бизнес-ориентированные метрики для измерения пользы ИИ
📎 Читайте материал по ссылке.
Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain Института AIRI, рассказывает:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤39
Лаборатория когнитивных систем искусственного интеллекта AIRI показала наилучший результат в России по количеству принятых работ на IROS 2025✨
В субботу в Ханчжоу, Китай, завершилась одна из крупнейших и самых престижных конференций в области робототехники — IROS 2025 (International Conference on Intelligent Robots and Systems). В этом году Институт представляли: Александр Панов, Константин Яковлев, Алексей Скрынник, Алексей Ковалёв, Дмитрий Юдин, Антон Андрейчук.
Опубликованные исследования:
📎 VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots
📎 LERa: Replanning with Visual Feedback in Instruction Following (совместно с Центром робототехники «Сбера»)
📎 Advancing Learnable Multi-Agent Pathfinding Solvers with Active Fine-Tuning
📎 M3PO: Massively Multi-Task Model-Based Policy Optimization
📎 Decentralized Uncertainty-Aware Multi-Agent Collision Avoidance with Model Predictive Path Integral
📎 PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching
Подробнее о представленных на конференции работах в интервью изданию «КоммерсантЪ Наука» рассказал директор лаборатории, доктор физико-математических наук Александр Панов.
Делимся фотографиями из Китая!
В субботу в Ханчжоу, Китай, завершилась одна из крупнейших и самых престижных конференций в области робототехники — IROS 2025 (International Conference on Intelligent Robots and Systems). В этом году Институт представляли: Александр Панов, Константин Яковлев, Алексей Скрынник, Алексей Ковалёв, Дмитрий Юдин, Антон Андрейчук.
Опубликованные исследования:
Подробнее о представленных на конференции работах в интервью изданию «КоммерсантЪ Наука» рассказал директор лаборатории, доктор физико-математических наук Александр Панов.
Делимся фотографиями из Китая!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤69