Институт AIRI – Telegram
Институт AIRI
11.7K subscribers
911 photos
9 videos
2 files
670 links
Канал Института AIRI ⚡️

Рассказываем про технологии ИИ и о том, как исследователи развивают их в России и мире: https://airi.net/ru/

ВКонтакте: https://vk.com/airi_institute

Регистрация в РКН: https://gosuslugi.ru/snet/686cce31f794ae555409516c
Download Telegram
Подробнее о новом бенчмарке для проверки долгосрочного планирования LLM в виртуальных RPG-мирaх — в блоге AIRI на Хабре ⤵️

HeroBench — это бенчмарк, выросший из студенческого проекта школы «Лето с AIRI». Основанный на MMORPG-песочнице Artifacts, он проверяет способность больших языковых моделей к сложному многошаговому планированию и выполнению комплексных задач в виртуальной среде.

Ведущий научный сотрудник, руководитель группы «Нейрокогнитивные архитектуры» Института AIRI Пётр Анохин и команда создали адаптированную версию среды, где агенты выполняют задачи по сбору ресурсов, крафту предметов и сражениям с монстрами. В тестировании приняли участие 25 открытых и проприетарных моделей, включая Gemini 2.5-Pro, Claude-4, Grok-4 и GPT-5. Это позволило определить, на какие современные LLM можно полагаться при планировании сложных процессов.

Команда, начавшая работу над бенчмарком ещё на школе: Роман Халиков, Сбер AGI NLP, МГУ, Виктор Волков, ТГУ и Стефан Ребриков, НИЦ Курчатовский институт, ВШЭ.

📎Читайте по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
40
#AIRI_Seminars в эфире! Подключайтесь к трансляции на YouTube или в VK Видео🍿
41
«Холодный старт» в рекомендательных системах требует нового подхода 🔖

Учёные Института AIRI сформулировали новый вызов в развитии рекомендательных систем — отсутствие единого подхода к выбору порога «холодного старта».

Анализ статей за последние 3 года на конференции RecSys показал: лишь 10% исследователей объясняют смысл фильтрации датасетов, и ни один не раскрывает обоснование выбранного порога.

Эффект «холодного старта» возникает, когда в системе появляется пользователь или товар с недостаточным числом взаимодействий. Правильный выбор порога фильтрации — ключ к качественным рекомендациям и корректным научным выводам. Сегодня чаще всего используют «5-core» фильтрацию (не менее 5 взаимодействий), но это решение часто принимается «на глаз».

Исследователи AIRI предложили методику автоматического определения оптимального порога, анализируя влияние числа взаимодействий на качество рекомендаций. Они протестировали популярные алгоритмы — SASRec, PureSVD, ItemKNN, EASER — на четырёх разнообразных датасетах (фильмы, косметика, искусство, пиво). Результаты показали, что оптимальный порог зависит от задачи и модели: например, SASRec требует в три раза больше взаимодействий, чем классические методы. Для честной оценки и воспроизводимости результатов важно обосновывать выбор порогов и использовать единые параметры фильтрации при сравнении моделей.

Работа была представлена на ведущей конференции ACM RecSys.

Научная статья | ТАСС
Please open Telegram to view this post
VIEW IN TELEGRAM
27
В Тэджоне прошла конференция IEEE International Symposium on Mixed and Augmented Reality (ISMAR) 2025

ISMAR — одна из ведущих международных площадок для обмена знаниями и опытом в области смешанной и дополненной реальности. Конференция собирает исследователей и практиков, которые представляют новейшие разработки в технологиях визуализации, взаимодействия и применения AR/VR в разных сферах.

В этом году Институт AIRI представлял Иннокентий Хумонен, научный сотрудник группы «ИИ в промышленности». Он представил статью “Automatic Image Translation of Long Ancient Egyptian Texts for Augmented Reality Applications”. Про результаты этого проекта мы рассказывали ранее.

Делимся фото из Южной Кореи!
47
«Зачетку на стол, тянем билет»: нужен ли новый тест Тьюринга для ИИ — колонка в Forbes ⤵️

Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain Института AIRI, рассказывает:

⚫️почему классический тест Тьюринга уже не отражает всех возможностей и ограничений современных ИИ-систем
⚫️какие альтернативные методы оценки ИИ существуют и что они проверяют
⚫️почему сравнивать ИИ с человеком — задача сложная и неоднозначная
⚫️как мультимодальность и коллективный интеллект меняют подходы к оценке ИИ-систем
⚫️зачем нужны бизнес-ориентированные метрики для измерения пользы ИИ

📎Читайте материал по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
39
Лаборатория когнитивных систем искусственного интеллекта AIRI показала наилучший результат в России по количеству принятых работ на IROS 2025

В субботу в Ханчжоу, Китай, завершилась одна из крупнейших и самых престижных конференций в области робототехники — IROS 2025 (International Conference on Intelligent Robots and Systems). В этом году Институт представляли: Александр Панов, Константин Яковлев, Алексей Скрынник, Алексей Ковалёв, Дмитрий Юдин, Антон Андрейчук.

Опубликованные исследования:
📎VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots
📎LERa: Replanning with Visual Feedback in Instruction Following (совместно с Центром робототехники «Сбера»)
📎Advancing Learnable Multi-Agent Pathfinding Solvers with Active Fine-Tuning
📎M3PO: Massively Multi-Task Model-Based Policy Optimization
📎Decentralized Uncertainty-Aware Multi-Agent Collision Avoidance with Model Predictive Path Integral
📎PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching

Подробнее о представленных на конференции работах в интервью изданию «КоммерсантЪ Наука» рассказал директор лаборатории, доктор физико-математических наук Александр Панов.

Делимся фотографиями из Китая!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
69