Как удаление знаков препинания и артиклей в запросе снижает точность языковых моделей до 20%⤵️
Исследователи AIRI обнаружили, что знаки препинания и артикли играют более важную роль в обработке информации языковыми моделями, чем кажется на первый взгляд. Это удалось узнать с помощью метода, который позволяет определить, какие именно данные сохраняются в связке с конкретными токенами.
В серии экспериментов исследователи использовали тексты, из которых заранее убрали элементы, кажущиеся незначительными для логики повествования: знаки препинания, артикли и стоп-слова. Для этого систему обучили анализировать последовательность токенов и восстанавливать текст. Оказалось, что больше всего информации о контексте содержится именно в стоп-словах. Затем поставили перед несколькими популярными языковыми моделями задачу — решить, какие элементы текста, с точки зрения человека, можно удалить. Проверка подтвердила, что, если убрать из формулировки технического задания такие «незначительные» символы, качество работы модели падает.
📎 Код для анализа работы языковых моделей доступен по ссылке.
Исследователи AIRI обнаружили, что знаки препинания и артикли играют более важную роль в обработке информации языковыми моделями, чем кажется на первый взгляд. Это удалось узнать с помощью метода, который позволяет определить, какие именно данные сохраняются в связке с конкретными токенами.
В серии экспериментов исследователи использовали тексты, из которых заранее убрали элементы, кажущиеся незначительными для логики повествования: знаки препинания, артикли и стоп-слова. Для этого систему обучили анализировать последовательность токенов и восстанавливать текст. Оказалось, что больше всего информации о контексте содержится именно в стоп-словах. Затем поставили перед несколькими популярными языковыми моделями задачу — решить, какие элементы текста, с точки зрения человека, можно удалить. Проверка подтвердила, что, если убрать из формулировки технического задания такие «незначительные» символы, качество работы модели падает.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32
Save the date: следующая ИИшница пройдет 10 апреля в 15:30 🍳
Исследователи расскажут об ИИ-агентах и мультиагентных системах, их применении в медицине, автоматизации научных исследований и поиске в сложных базах данных. Скоро поделимся подробным расписанием онлайн-митапа.
Сохраняйте ссылки на трансляции, чтобы не пропустить: VK Видео, YouTube 🍿
Исследователи расскажут об ИИ-агентах и мультиагентных системах, их применении в медицине, автоматизации научных исследований и поиске в сложных базах данных. Скоро поделимся подробным расписанием онлайн-митапа.
Сохраняйте ссылки на трансляции, чтобы не пропустить: VK Видео, YouTube 🍿
❤48
4 года назад появился Институт AIRI ❤️
За это время мы объединили сильнейших исследователей в области искусственного интеллекта, опубликовали сотни научных статей и провели десятки семинаров. По традиции делимся карточками с итогами работы Института за 4 года.
В честь праздника делимся папкой с каналами наших исследователей — подписывайтесь, сохраняйте и изучайте науку так, как её видят сами учёные.
Спасибо, что читаете, смотрите и поддерживаете нас😁
За это время мы объединили сильнейших исследователей в области искусственного интеллекта, опубликовали сотни научных статей и провели десятки семинаров. По традиции делимся карточками с итогами работы Института за 4 года.
В честь праздника делимся папкой с каналами наших исследователей — подписывайтесь, сохраняйте и изучайте науку так, как её видят сами учёные.
Спасибо, что читаете, смотрите и поддерживаете нас
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤122
Рассказываем подробности про следующий #AIRI_Seminars 🔔
9 апреля в 17:00 Сергей Загоруйко, PhD, старший преподаватель Сколтеха, выступит с докладом «DETR: end-to-end детекция объектов с трансформерами». Оппонентом будет Дмитрий Юдин, кандидат технических наук, ведущий научный сотрудник лаборатории когнитивных систем искусственного интеллекта AIRI.
Подробное описание и регистрация на офлайн-формат с пиццей и нетворкингом по ссылке.
Трансляции: VK Видео и YouTube📌
9 апреля в 17:00 Сергей Загоруйко, PhD, старший преподаватель Сколтеха, выступит с докладом «DETR: end-to-end детекция объектов с трансформерами». Оппонентом будет Дмитрий Юдин, кандидат технических наук, ведущий научный сотрудник лаборатории когнитивных систем искусственного интеллекта AIRI.
Подробное описание и регистрация на офлайн-формат с пиццей и нетворкингом по ссылке.
Трансляции: VK Видео и YouTube
Please open Telegram to view this post
VIEW IN TELEGRAM
❤39
⚡️Открываем прием заявок на Лето с AIRI 2025!
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую атмосферу. В расписании — лекции, семинары, практическая работа, постерная сессия и внеучебные активности.
📎 Подать заявку на участие можно по ссылке до 23:59 29 апреля 2025 года.
Организаторы обеспечивают обучение, проживание и питание, вам нужно будет только добраться до Томска.
Подавайте заявки и делитесь постом с друзьями и коллегами!
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую атмосферу. В расписании — лекции, семинары, практическая работа, постерная сессия и внеучебные активности.
Организаторы обеспечивают обучение, проживание и питание, вам нужно будет только добраться до Томска.
Подавайте заявки и делитесь постом с друзьями и коллегами!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤92
Сегодня рассказываем подробнее про доклады, которые будут на ИИшнице 10 апреля 🍳
◼️ В 15:30 кандидат физико-математических наук, Chief Data Scientist B2C Сбер Дмитрий Бугайченко выступит с докладом про краткую историю мультиагентных систем.
◼️ В 15:50 руководитель группы «Мультимодальные архитектуры ИИ» лаборатории «Сильный ИИ в медицине» AIRI Ярослав Беспалов расскажет про создание мультиагентной системы на примере медицинского цифрового ассистента.
◼️ В 16:10 пройдет доклад Никиты Любайкина, инженера–исследователя группы «Адаптивные агенты», про модель Vintix: Action Model via In-Context Reinforcement Learning.
◼️ В 16:30 Technical Product Owner команды по разработке ИИ агентов в Альфа-Банке Артём Павленко расскажет про новый стандарт взаимодействия ИИ-агентов — Model Context Protocol.
◼️ В 16:50 пройдет доклад техлида команды GigaChain SDK и развития агентов Константина Крестникова «Query construction in RAG: как мы решали задачу поиска на сложной базе данных заказчика с помощью langchain и chroma».
◼️ В 17:10 завершающий доклад «Ассистент-исследователь: на пути к автоматизации научных исследований» прочитает доктор физико-математических наук, директор лаборатории когнитивных систем искусственного интеллекта AIRI, директор ЦКМ Института ИИ МФТИ Александр Панов.
Ведущим мероприятия будет руководитель группы «Глубокое обучение в науках о жизни» AIRI Артур Кадурин.
Подключайтесь к трансляции в VK Видео или на YouTube 🍿
Ведущим мероприятия будет руководитель группы «Глубокое обучение в науках о жизни» AIRI Артур Кадурин.
Подключайтесь к трансляции в VK Видео или на YouTube 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44
Please open Telegram to view this post
VIEW IN TELEGRAM
❤36
Институт AIRI
Сегодня рассказываем подробнее про доклады, которые будут на ИИшнице 10 апреля 🍳 ◼️ В 15:30 кандидат физико-математических наук, Chief Data Scientist B2C Сбер Дмитрий Бугайченко выступит с докладом про краткую историю мультиагентных систем. ◼️ В 15:50 руководитель…
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23
На прошлой неделе в итальянском городе Лукка прошла конференция по информационному поиску ECIR 2025 ⤵️
В этом году на площадке конференции руководитель группы «Прикладное NLP» Елена Тутубалина, руководитель группы «Вычислительная семантика» Александр Панченко и старший научный сотрудник Василий Коновалов.
⚫️ BioASQ at CLEF2025: The thirteenth edition of the large-scale biomedical semantic indexing and question answering challenge
В статье, подготовленной Еленой Тутубалиной с коллегами, рассказывается про соревнование BioNNE-L, которое является частью воркшопа BioASQ. Дедлайн принятия решений — 6 мая 2025. По результатам можно написать статью на конференцию CLEF 2025.
⚫️ Overview of PAN 2025: Generative AI Detection, Multilingual Text Detoxification, Multi-Author Writing Style Analysis, and Generative Plagiarism Detection
В статье Александра Панченко, Артёма Шелманова и их коллег дается краткий обзор четырех задач, которые будут представлены на треке PAN конференции CLEF 2025.
⚫️ RURAGE: Robust Universal RAG Evaluator for Fast and Affordable QA Performance Testing (Industry Track)
Команда исследователей при участии Александра Панченко и Василия Коновалова представили открытый фреймворк RURAGE, разработанный для оценки качества вопросно-ответных систем посредством комбинации простого лексического анализа, оценок на основе моделей и метрик неопределенности.
Делимся фотографиями с конференции!📌
В этом году на площадке конференции руководитель группы «Прикладное NLP» Елена Тутубалина, руководитель группы «Вычислительная семантика» Александр Панченко и старший научный сотрудник Василий Коновалов.
В статье, подготовленной Еленой Тутубалиной с коллегами, рассказывается про соревнование BioNNE-L, которое является частью воркшопа BioASQ. Дедлайн принятия решений — 6 мая 2025. По результатам можно написать статью на конференцию CLEF 2025.
В статье Александра Панченко, Артёма Шелманова и их коллег дается краткий обзор четырех задач, которые будут представлены на треке PAN конференции CLEF 2025.
Команда исследователей при участии Александра Панченко и Василия Коновалова представили открытый фреймворк RURAGE, разработанный для оценки качества вопросно-ответных систем посредством комбинации простого лексического анализа, оценок на основе моделей и метрик неопределенности.
Делимся фотографиями с конференции!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤53