Open-source для RAG и генерации контента по тексту
У Сбера вышли две собственные ИИ-модели в опенсорс, которые стоит взять в прод. Делимся
🧭 Эмбеддинги
Вышла новая версия 3B модели для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации. C большим отрывом заняла топ-1 на бенчмарке ruMTEB
HF
GitVerse
🧭 Генерация видео
Kandinsky 5.0 Video Lite — модель в 2B параметров, которая генерирует качественные видео по тексту. Модель компактна, требует меньше ресурсов и генерирует быстрее, при этом не жертвуя качеством
По внутренним замерам, SFT-версия (5 сек) по общему качеству обходит Wan 2.1 (14B), Wan 2.2 (5B) и оригинальную Sora, и сравнима с Wan 2.2 A14B. Примеры генераций в посте
HF
GitHub / GitVerse
Подробнее на Хабре
#новости
❤ @sb_ai_lab
У Сбера вышли две собственные ИИ-модели в опенсорс, которые стоит взять в прод. Делимся
Вышла новая версия 3B модели для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации. C большим отрывом заняла топ-1 на бенчмарке ruMTEB
HF
GitVerse
Kandinsky 5.0 Video Lite — модель в 2B параметров, которая генерирует качественные видео по тексту. Модель компактна, требует меньше ресурсов и генерирует быстрее, при этом не жертвуя качеством
По внутренним замерам, SFT-версия (5 сек) по общему качеству обходит Wan 2.1 (14B), Wan 2.2 (5B) и оригинальную Sora, и сравнима с Wan 2.2 A14B. Примеры генераций в посте
HF
GitHub / GitVerse
Подробнее на Хабре
#новости
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤4👍3
Наша команда вернулась с главной конференции по рекомендательным системам — ACM RecSys 2025 в Праге.
Делимся главными результатами:
🌟 5 научных работ, 2 из них — в коллаборации с ребятами из AIRI
🌟 2 устных доклада в основной программе
🌟 2 постера
🌟 2 место в общем зачете и 1 место в академическом, а также доклад на воркшопе RecSys Challenge
Команда Сбера (Sber AI Lab и AIRI) попала в топ-3 по количеству статей вместе с Google и Meta*
1. Time to Split: Exploring Data Splitting Strategies for Offline Evaluation of Sequential Recommenders (совместо с AIRI)
Как стратегии разбиения данных влияют на оценку sequential-рекомендателей. Сравниваем классические Leave-One-Out и Global Temporal Split и предлагаем более подходящие стратегии.
📄 Статья
🔗 Код
🖥️ Запись выступления
2. Let It Go? Not Quite: Addressing Item Cold Start in Sequential Recommendations with Content-Based Initialization
Элегантный метод работы с холодным стартом айтемов с спользованием контентных эмбеддингов с добавлением небольшой обучаемой поправки
📄 Статья
🔗 Код
🖥️ Запись выступления
3. Benefiting from Negative yet Informative Feedback by Contrasting Opposing Sequential Patterns (совместо с AIRI)
Новый подход к использованию негативного фидбэка в рекомендательных моделях на последовательностях для более гибкой адаптации к вкусам пользователя
📄 Статья
🔗 Код
4. SASRec: Enhancing Transformer-based Recommendations in a Modular Fashion (совместо с МТС)
Новый способ модификации SASRec с заменой части трансформера на LiGR-слои с применением негативного сэмплирования, а также новый бенчмарк для оценки баланса между точностью и покрытием (coverage) рекомендаций в приближенных к промышленному использованию условиях
📄 Статья
🔗 Код
5. Encode Me If You Can: Learning Universal User Representations via Event Sequence Autoencoding
Подробнее рассказали здесь
📄 Статья
🔗 Код
🖥️ Запись разбора
Конференция получилась насыщенной, успели пообщаться с авторами из академии и индустрии
На церемонии закрытия объявили места проведения следующих RecSys — в Миннесоте и на Гавайях. Теперь главный вызов — не research, а получение визы
Гордимся нашими ребятами и тем, что смогли громко заявить о себе на самой профильной конференции!
#новости
*Компания Meta признана экстремистской и запрещена на территории Российской Федерации
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22❤10🏆4
Наши ребята из AI Lab совместно с командами AIRI, Skoltech и МФТИ представили совместную работу по борьбе с галлюцинациями LLM When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
🧠 PsiloQA — это:
Где применять?
Для обучения и тестирования ваших собственных детекторов галлюцинаций, создания более надежных QA-систем и честной оценки моделей.
Ссылки:
📄 Статья
🗃️ Код
#новости
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍7❤6
Знакомьтесь с нашей open-source библиотекой Tsururu (TSForesight) для прогнозирования временных рядов.
Библиотека разработана как универсальный инструмент как для проверки исследовательских гипотез и консистентного сравнения моделей, так и для применения в бизнес-задачах и быстрого прототипирования.
Что внутри?
Преимущества для практического использования:
Инструмент упрощает жизнь и Data Scientist'у, который хочет быстро проверить гипотезу, и инженеру, которому нужно надежное решение для прода.
Попробуйте Tsururu в своем проекте и делитесь фидбэком! Фикс, идеи и звёзды ⭐️ в репозитории — лучшая поддержка.
⭐️ Код
⭐️ Статья
#новости
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤4🆒3⚡1
Завершилась главная конференция по машинному обучению — Fall into ML 2025. 700+ участников и более 180 авторов статей для A*-конференций, интересные спец-курсы, доклады и научные дискуссии, масштабная постерная сессия в одном месте — настоящий праздник науки!
В этом году генеральным партнером и одним из самых активных участников вновь выступила наша команда Sber AI Lab.
Кроме того, Андрей Савченко стал топ-1 по числу постеров А*-статей 2025 года (9 постеров)
Для нас такие конференции — это возможность живого общения с научным сообществом, точка роста для будущих коллабораций и мощный заряд вдохновения.
Было круто! До следующего года!
#новости
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥9🔥7👍2
Отличные новости! 🔥
Посмотрите интервью с нашим Data Scientist Иваном Поддъяковым.
Иван рассказал об интересных вызовах и проектах в Sber AI Lab и объяснил, почему ИИ в медицине — это настоящее будущее!
Посмотрите интервью с нашим Data Scientist Иваном Поддъяковым.
Иван рассказал об интересных вызовах и проектах в Sber AI Lab и объяснил, почему ИИ в медицине — это настоящее будущее!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from СберСтудент
Наши ребята из Центра практического ИИ Сбера вместе с учеными из Института биохимии РАН сделали то, что звучит как фантастика — научили искусственный интеллект создавать антитела для лечения рака и аутоиммунных заболеваний
Один из участников проекта — Ваня Поддъяков, дата сайентист в Центре практического ИИ Сбера. Закончил вуз год назад, а уже работает над технологией, которая может изменить медицину
В карточках — его история: как попал в команду, чему пришлось учиться и как ИИ на самом деле «придумывает» молекулы
А ещё ребята ведут свой крутой канал про AI & ML, где делятся новостями и разборами статей → @sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11⚡6❤5🆒2🤗1