ИИ Песочница | RnD про ML, AI, Data Science – Telegram
ИИ Песочница | RnD про ML, AI, Data Science
1.92K subscribers
175 photos
7 videos
109 links
AI & ML related papers review, news, opensource updates

GitHub: https://github.com/sb-ai-lab

Contact us for posts and promo: @nepogodstvo
Download Telegram
Рассказали про наши новые статьи на IJCAI 2025!

Наши ребята, Алина Костромина и Артем Сахно, слетали на международную конференцию в области искусственного интеллекта IJCAI'25 с двумя принятыми статьями

🔘Pytorch-lifestream: Learning Embeddings on Discrete Event Sequences
Статья презентует первую библиотеку pytorch-lifestream, созданную для работы с дискретными последовательностями событий. Она позволяет извлекать эмбеддинги, решать задачи end-to-end и одновременно служит бенчмарком, объединяя классические и современные SOTA-методы, такие как CoLES, TabFormer, CPC и другие.

➡️ Артем рассказал:
Трек IJCAI demo идеально подходит для презентации подобных решений — новых инструментов и open-source библиотек. Основным мотивом участия было желание поделиться результатом многолетней командной работы и сделать его доступным исследовательскому сообществу


🔘Tsururu: A Python-based Time Series Forecasting Strategies Library
Статья представляет библиотеку для комбинирования подходов к обработке, моделей (от классических подходов до SOTA-методов) и стратегий прогнозирования многомерных временных рядов (Global, Multivariate) на длинный горизонт (Recursive, MIMO и т. д.)

Tsururu подходит как для проверки исследовательских гипотез и консистентного сравнения моделей, так и для практических задач — от работы с невыровненными рядов до учета экзогенных признаков

➡️Алина также поделилась своими мыслями:
Тематика Демо-трека идеально подошла под наши наработки. Для меня это первая конференция уровня A*. Следующая цель — long статья на main-трек конференции аналогичного уровня


Поздравить ребят можно, поставив реакцию 🎉

⭐️ Ссылка на Github ptls
⭐️ Ссылка на Github Tsururu


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥226🎉6👏41
🤖 Выступили на AI-ZAMAN

Наши DS-эксперты выступили на научной конференции Artificial Intelligence for the New Zaman, которая объединила фундаментальные и прикладные исследования в области искусственного интеллекта.
Конференция прошла отдельным треком на Kazan Digital Week 2025. Делимся результатами!

🔘 Андрей Савченко с докладом LLM2ES: фундаментальные модели для последовательностей событийных данных
В рамках доклада рассматривались подходы для работы с последовательностями событийных данных (event sequences) с акцентом на приложения в банковской сфере

🔘 Иван Свиридов в постерной сессии с темой Conditional Electrocardiogram Generation Using Hierarchical Variational Autoencoders
Работа посвящена созданию модели cNVAE-ECG, цель которой — генерировать реалистичные электрокардиограммы с разными патологиями

🔘 Петр Филоненко в постерной сессии с темой ИИ в решении проблемы онкопрофилактики: ретроспективное исследование
Работа посвящена исследованию вопроса, могут ли методы ИИ на основе минимально доступного набора данных — только кодов медицинских диагнозов и услуг — эффективно прогнозировать риск злокачественных новообразований (ЗНО) на горизонте 12 месяцев


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍7🤪1
Open-source для RAG и генерации контента по тексту

У Сбера вышли две собственные ИИ-модели в опенсорс, которые стоит взять в прод. Делимся

🧭 Эмбеддинги
Вышла новая версия 3B модели для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации. C большим отрывом заняла топ-1 на бенчмарке ruMTEB

HF
GitVerse

🧭 Генерация видео
Kandinsky 5.0 Video Lite — модель в 2B параметров, которая генерирует качественные видео по тексту. Модель компактна, требует меньше ресурсов и генерирует быстрее, при этом не жертвуя качеством

По внутренним замерам, SFT-версия (5 сек) по общему качеству обходит Wan 2.1 (14B), Wan 2.2 (5B) и оригинальную Sora, и сравнима с Wan 2.2 A14B. Примеры генераций в посте

HF
GitHub / GitVerse
Подробнее на Хабре


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥94👍3
🏆 Мы на RecSys'25: 5 статей на основных треках и 2-е место в челлендже с выступлением на воршкопе!

Наша команда вернулась с главной конференции по рекомендательным системам — ACM RecSys 2025 в Праге.
Делимся главными результатами:

🌟 5 научных работ, 2 из них — в коллаборации с ребятами из AIRI
🌟 2 устных доклада в основной программе
🌟 2 постера
🌟 2 место в общем зачете и 1 место в академическом, а также доклад на воркшопе RecSys Challenge

Команда Сбера (Sber AI Lab и AIRI) попала в топ-3 по количеству статей вместе с Google и Meta*

👇 Подробнее о наших работах:

1. Time to Split: Exploring Data Splitting Strategies for Offline Evaluation of Sequential Recommenders (совместо с AIRI)
Как стратегии разбиения данных влияют на оценку sequential-рекомендателей. Сравниваем классические Leave-One-Out и Global Temporal Split и предлагаем более подходящие стратегии.
📄 Статья
🔗 Код
🖥️ Запись выступления

2. Let It Go? Not Quite: Addressing Item Cold Start in Sequential Recommendations with Content-Based Initialization
Элегантный метод работы с холодным стартом айтемов с спользованием контентных эмбеддингов с добавлением небольшой обучаемой поправки
📄 Статья
🔗 Код
🖥️ Запись выступления

3. Benefiting from Negative yet Informative Feedback by Contrasting Opposing Sequential Patterns (совместо с AIRI)
Новый подход к использованию негативного фидбэка в рекомендательных моделях на последовательностях для более гибкой адаптации к вкусам пользователя
📄 Статья
🔗 Код

4. SASRec: Enhancing Transformer-based Recommendations in a Modular Fashion (совместо с МТС)
Новый способ модификации SASRec с заменой части трансформера на LiGR-слои с применением негативного сэмплирования, а также новый бенчмарк для оценки баланса между точностью и покрытием (coverage) рекомендаций в приближенных к промышленному использованию условиях
📄 Статья
🔗 Код

5. Encode Me If You Can: Learning Universal User Representations via Event Sequence Autoencoding
Подробнее рассказали здесь
📄 Статья
🔗 Код
🖥️ Запись разбора


Конференция получилась насыщенной, успели пообщаться с авторами из академии и индустрии

На церемонии закрытия объявили места проведения следующих RecSys — в Миннесоте и на Гавайях. Теперь главный вызов — не research, а получение визы

➡️ Записи всех устных докладов доступны на сайте конференции


Гордимся нашими ребятами и тем, что смогли громко заявить о себе на самой профильной конференции! 🧬


❤️ @sb_ai_lab
#новости


*Компания Meta признана экстремистской и запрещена на территории Российской Федерации
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2210🏆4
🧭 Детектим галлюцинации с PsiloQA

Наши ребята из AI Lab совместно с командами AIRI, Skoltech и МФТИ представили совместную работу по борьбе с галлюцинациями LLM When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

🧠 PsiloQA — это:
🔘 Главный козырь — автоматический сбор данных и эффективная разметка, которая в 17 раз дешевле ручной разметки без потерь в качестве
🔘 Крупнейший мультиязычный бенчмарк с разметкой галлюцинаций на уровне спанов (а не всего текста) для 14 языков. Более 60,000 samples.
🔘 Эффективный перенос знаний: модель, обученная на их данных, отлично детектит галлюцинации на других языках и в новых доменах.
🔘 Комплексный срез популярных методов детекции — теперь есть с чем сравнивать.

Где применять?
Для обучения и тестирования ваших собственных детекторов галлюцинаций, создания более надежных QA-систем и честной оценки моделей.

Ссылки:
📄 Статья
🗃️ Код

⚡️ Проголосуйте за нашу работу здесь


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍76
🔝 Гибкость или производительность? Все сразу с Tsururu

Знакомьтесь с нашей open-source библиотекой Tsururu (TSForesight) для прогнозирования временных рядов.

Библиотека разработана как универсальный инструмент как для проверки исследовательских гипотез и консистентного сравнения моделей, так и для применения в бизнес-задачах и быстрого прототипирования.

Что внутри?
🔘 Гибкая архитектура: свободная комбинация методов предобработки, базовых моделей и стратегий прогнозирования с полной совместимостью компонентов.
🔘 Стратегии прогнозирования: поддержка многомерных рядов (Global, Multivariate) и прогноза на длинный горизонт (6+ стратегий от Recursive до MIMO, включая гибридные и авторскую FlatWideMIMO).
🔘 Предобработка данных: классические методы и специализированные подходы, включая нормализацию в скользящем окне.

Преимущества для практического использования:
Ускоренное построение бейзлайнов за счет встроенных ML-моделей и SOTA-архитектур (DLinear, CycleNet, TimesNet, GPT2 for TS).
Поддержка промышленных сценариев: работа с невыровненными рядами и экзогенными признаками.
Научная валидация: подходы библиотеки подтверждены публикациями в IEEE (Q1) и IJCAI A*. При этом мы показали, что общепринятые комбинации базовых моделей и стратегий не всегда оптимальны.

Инструмент упрощает жизнь и Data Scientist'у, который хочет быстро проверить гипотезу, и инженеру, которому нужно надежное решение для прода.

Попробуйте Tsururu в своем проекте и делитесь фидбэком! Фикс, идеи и звёзды ⭐️ в репозитории — лучшая поддержка.

⭐️ Код
⭐️ Статья


@sb_ai_lab
#новости
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥134🆒31
📰 Как это было: Fall into ML 2025 с Sber AI Lab!

Завершилась главная конференция по машинному обучению — Fall into ML 2025. 700+ участников и более 180 авторов статей для A*-конференций, интересные спец-курсы, доклады и научные дискуссии, масштабная постерная сессия в одном месте — настоящий праздник науки!

В этом году генеральным партнером и одним из самых активных участников вновь выступила наша команда Sber AI Lab.

🔘 Провели собственный воркшоп «Financial AI», где ученые Андрей Савченко, Алексей Шестов, Иван Карпухин и Джантемир Киков из Sber AI Lab и Алексей Зайцев из Сколтеха разобрали, как ИИ покоряет мир структурированных финансовых данных

🔘 Глеб Гусев принял участие в острой панельной дискуссии «Академия в кризисе», где эксперты искали ответы на вызовы, которые бросает индустрия фундаментальной науке

🔘 Постерная сессия собрала 14 статей от Sber, 12 из которых — от нашей команды! Мы стали лидерами в таких направлениях, как Recommendation Systems и AI for Healthcare, а также представили сильные работы в области Multimodal Understanding и LLM Interpretability & Safety.
Кроме того, Андрей Савченко стал топ-1 по числу постеров А*-статей 2025 года (9 постеров)

Для нас такие конференции — это возможность живого общения с научным сообществом, точка роста для будущих коллабораций и мощный заряд вдохновения.

Было круто! До следующего года! 🔥

➡️ Все постеры здесь


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥9🔥7👍2