NEW BOT Телеграм, страница

Институт AIRI

Подробнее о новом бенчмарке для проверки долгосрочного планирования LLM в виртуальных RPG-мирaх — в блоге AIRI на Хабре ⤵️

HeroBench — это бенчмарк, выросший из студенческого проекта школы «Лето с AIRI». Основанный на MMORPG-песочнице Artifacts, он проверяет способность больших языковых моделей к сложному многошаговому планированию и выполнению комплексных задач в виртуальной среде.

Ведущий научный сотрудник, руководитель группы «Нейрокогнитивные архитектуры» Института AIRI Пётр Анохин и команда создали адаптированную версию среды, где агенты выполняют задачи по сбору ресурсов, крафту предметов и сражениям с монстрами. В тестировании приняли участие 25 открытых и проприетарных моделей, включая Gemini 2.5-Pro, Claude-4, Grok-4 и GPT-5. Это позволило определить, на какие современные LLM можно полагаться при планировании сложных процессов.

Команда, начавшая работу над бенчмарком ещё на школе: Роман Халиков, Сбер AGI NLP, МГУ, Виктор Волков, ТГУ и Стефан Ребриков, НИЦ Курчатовский институт, ВШЭ.

📎

Читайте по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤40

6.19K views15:17

Институт AIRI

#AIRI_Seminars в эфире! Подключайтесь к трансляции на YouTube или в VK Видео🍿

❤41

4.41K views14:00

Институт AIRI

«Холодный старт» в рекомендательных системах требует нового подхода

🔖

Учёные Института AIRI сформулировали новый вызов в развитии рекомендательных систем — отсутствие единого подхода к выбору порога «холодного старта».

Анализ статей за последние 3 года на конференции RecSys показал: лишь 10% исследователей объясняют смысл фильтрации датасетов, и ни один не раскрывает обоснование выбранного порога.

Эффект «холодного старта» возникает, когда в системе появляется пользователь или товар с недостаточным числом взаимодействий. Правильный выбор порога фильтрации — ключ к качественным рекомендациям и корректным научным выводам. Сегодня чаще всего используют «5-core» фильтрацию (не менее 5 взаимодействий), но это решение часто принимается «на глаз».

Исследователи AIRI предложили методику автоматического определения оптимального порога, анализируя влияние числа взаимодействий на качество рекомендаций. Они протестировали популярные алгоритмы — SASRec, PureSVD, ItemKNN, EASER — на четырёх разнообразных датасетах (фильмы, косметика, искусство, пиво). Результаты показали, что оптимальный порог зависит от задачи и модели: например, SASRec требует в три раза больше взаимодействий, чем классические методы. Для честной оценки и воспроизводимости результатов важно обосновывать выбор порогов и использовать единые параметры фильтрации при сравнении моделей.

Работа была представлена на ведущей конференции ACM RecSys.

Научная статья | ТАСС

Please open Telegram to view this post

VIEW IN TELEGRAM

❤27

4.68K views14:04

Институт AIRI

В Тэджоне прошла конференция IEEE International Symposium on Mixed and Augmented Reality (ISMAR) 2025

ISMAR — одна из ведущих международных площадок для обмена знаниями и опытом в области смешанной и дополненной реальности. Конференция собирает исследователей и практиков, которые представляют новейшие разработки в технологиях визуализации, взаимодействия и применения AR/VR в разных сферах.

В этом году Институт AIRI представлял Иннокентий Хумонен, научный сотрудник группы «ИИ в промышленности». Он представил статью “Automatic Image Translation of Long Ancient Egyptian Texts for Augmented Reality Applications”. Про результаты этого проекта мы рассказывали ранее.

Делимся фото из Южной Кореи!

❤47

4.74K views15:49

Институт AIRI

«Зачетку на стол, тянем билет»: нужен ли новый тест Тьюринга для ИИ — колонка в Forbes

⤵️

Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain Института AIRI, рассказывает:

⚫️почему классический тест Тьюринга уже не отражает всех возможностей и ограничений современных ИИ-систем
⚫️какие альтернативные методы оценки ИИ существуют и что они проверяют
⚫️почему сравнивать ИИ с человеком — задача сложная и неоднозначная
⚫️как мультимодальность и коллективный интеллект меняют подходы к оценке ИИ-систем
⚫️зачем нужны бизнес-ориентированные метрики для измерения пользы ИИ

📎

Читайте материал по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤39

4.82K views15:44

Институт AIRI

Лаборатория когнитивных систем искусственного интеллекта AIRI показала наилучший результат в России по количеству принятых работ на IROS 2025

✨

В субботу в Ханчжоу, Китай, завершилась одна из крупнейших и самых престижных конференций в области робототехники — IROS 2025 (International Conference on Intelligent Robots and Systems). В этом году Институт представляли: Александр Панов, Константин Яковлев, Алексей Скрынник, Алексей Ковалёв, Дмитрий Юдин, Антон Андрейчук.

Опубликованные исследования:

📎

VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots

📎

LERa: Replanning with Visual Feedback in Instruction Following (совместно с Центром робототехники «Сбера»)

📎

Advancing Learnable Multi-Agent Pathfinding Solvers with Active Fine-Tuning

📎

M3PO: Massively Multi-Task Model-Based Policy Optimization

📎

Decentralized Uncertainty-Aware Multi-Agent Collision Avoidance with Model Predictive Path Integral

📎

PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching

Подробнее о представленных на конференции работах в интервью изданию «КоммерсантЪ Наука» рассказал директор лаборатории, доктор физико-математических наук Александр Панов.

Делимся фотографиями из Китая!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤69

5.3K views17:36

About

Blog

Apps

Platform