ИИ Песочница | RnD про ML, AI, Data Science – Telegram
ИИ Песочница | RnD про ML, AI, Data Science
1.89K subscribers
175 photos
8 videos
110 links
AI & ML related papers review, news, opensource updates

GitHub: https://github.com/sb-ai-lab

Contact us for posts and promo: @nepogodstvo
Download Telegram
📰 Что сейчас в тренде?

На белорусском портале Smartpress вышло большое интервью с Андреем Савченко, и это must-read для всех, кто в AI.

Почему стоит читать? Потому что статья о том, как искусственный интеллект уже сейчас меняет науку и бизнес: где AI реально работает, какие задачи он решает, какие направления в обучении нужны и почему спрос на Data Scientists продолжает расти.

Если вы хотите понимать, куда движется рынок и какие навыки будут в топе, то оставили для вас ссылку.


#новости 
 @sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥65
Премии в области R&D 🔝

В Сбере прошла церемония награждения лучших команд и сотрудников в R&D, и наша команда забрала призы сразу в нескольких номинациях.

🎉 Команда RecSys под руководством Алексея Васильева получила главную награду за «R&D прорыв года». Их решение для понимания клиентов Банка меняет индустрию.

🎉 Наши исследователи отметились научными статьями:
🔘Андрей Петровский за работу “Layerwise universal adversarial attack on NLP models” - прорыв в области безопасности моделей обработки естественного языка.
🔘Никита Захаренко за исследование “Hierarchical waste detection with weakly supervised segmentation in images from recycling plants” - важный шаг в развитии технологий переработки отходов.

🎉 А еще Алексея Васильева, Анну Володкевич и Антона Кленицкого из нашей команды заслуженно признали лучшими исследователями года. Забрали 3 из 5 наград!

Поздравляем всех участников и желаем еще больше призов и побед!


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥259👍4👏2🥰1💘1
🔝Как опыт Avito подтверждает ценность наших open-source продуктов

Команда Avito рассказала на Хабре, как использовала нашу либу AutoWoE для повышения ликвидности объявлений на площадке.

Модель анализирует успешные объявления и подсказывает, что можно улучшить: добавить фото, скорректировать цену, активнее отвечать или включить продвижение. AutoWoE разбивает фичи на бины, оценивает их влияние на отклики и формирует скор-карту инструментов, переведённую в рекомендации пользователям.

A/B-тесты показали рост целевых контактов и увеличение числа сделок.

Круто, когда open-source находит применение в реальных задачах!


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥198👏7👍2❤‍🔥1🙏1💘1
🚀 День науки: как исследования становятся технологиями?

Сегодня — День науки! Отличный повод рассказать, как наша команда ресерчеров превращает исследования в AI в реальные технологии.

▪️ SketchBoost → Py-Boost
Наш алгоритм SketchBoost (представили его на NeurlPS 2022), ускоряет обучение моделей градиентного бустинга. На его основе создана библиотека Py-Boost, которая позволяет разработчикам интегрировать предварительное обучение в существующие пайплайны машинного обучения на Питоне.
Py-Boost уже повышает эффективность маркетинговых кампаний Сбера и существенно сокращает издержки на обучение моделей.

▪️ CoLES → pytorch-lifestream
Метод CoLES учитывает контекст при обработке последовательностей событий. На его основе создана библиотека pytorch-lifestream, которая применяется для более точного анализа потребностей клиентов, улучшения пользовательского опыта и повышения удовлетворенности людей.

▪️ А ещё мы круто прокачались в рекомендательных системах. Почитать здесь и здесь.

Почему это важно?
За каждым прорывным алгоритмом стоят сотни экспериментов, статьи, конференции и бессонные ночи. Именно исследования позволяют создавать более точные модели, автоматизировать процессы и делать технологии доступнее.
Без науки невозможен прогресс в области ИИ, а без ИИ немыслимо развитие современного бизнеса.

Не бойтесь сложных задач, копайте глубже, задавайте вопросы. Поздравляем с Днем науки!


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍9🔥82
Как ускорить распределённое обучение с компрессией? 🏎️

Статья Александра Безносикова из нашей команды и Дмитрия Былинкина об ускоренных методах с компрессией «Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity» принята на main technical track AAAI'25 (Rank A*).

The 39th Annual AAAI Conference on Artificial Intelligence пройдет 25 февраля - 4 марта 2025 года в Филадельфии, США.

В чём суть работы?
Когда данных слишком много, собрать их в одном месте для обучения модели невозможно. Приходится работать в распределённом режиме, но тут возникает проблема: передача данных между устройствами — это долго и дорого.

Как решить проблему?
1. Компрессия — сжимаем данные перед передачей, чтобы ускорить процесс в 3 раза.
2. Анализ схожести — если данные на разных устройствах похожи, можно реже обмениваться информацией и больше работать локально.

Авторы показали, что объединение этих двух подходов даёт оптимальные теоретические гарантии и существенно ускоряет обучение.

Поздравляем ребят с крутым результатом! 🎉


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍147
Подводим итоги розыгрыша! 🎉  

Спасибо всем, кто участвовал!
Поздравляем победителей — призы уже у вас! 🎁🎁🎁

Отдельное спасибо нашим друзьям из LightAutoML за помощь в проведении

Оставайтесь с нами и следите за нашими новостями, дальше будет еще больше интересного!


#итоги
 @sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
💅86👎3😁2😭2👍1🎉1🤡1🤗1💊1
🔥Хранилище датасетов от Гарварда

Library Innovation Lab Гарварда недавно зарелизил открытое хранилище госдатасетов, собранных из различных источников, которые имеют ценность для ресерчей, DS-задач и просто любопытных умов.

Сейчас хранилище включает 311k датасетов (16 ТБ) из data.gov. Хранилище будет обновляться ежедневно, по мере добавления новых данных в data.gov и другие источники, что обеспечит более надёжное сохранение данных. Данные можно брать по названию или сразу пакетом файлов.

Чекайте, вдруг пригодится


#обзоры
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥8❤‍🔥54🤔2
⚡️ Как работать в AI и не потерять вдохновение?

Блиц с Галиной Зубковой! Узнали, какими задачами занимается, какие фокусы в исследованиях и что стало главной трудностью.

Листайте картинки и мотивируйтесь 🌷


#интервью
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16💅7🦄6👍2🙈2👏1
Наши друзья из Сколтеха совместно со Сбером запустили АНТИолимпиаду, где задачи придумываете вы.

Если вы студент 4 курса бакалавриата и шарите в компьютерных науках, выбирайте одну из 55 тем, придумывайте 10 вопросов и отправляйте до 30 марта

Победителям профит: денежный сертификат, бонус при поступлении в магистратуру «Науки о данных» и fast-track на открытые стажировки в Сколтех и Сбер.

➡️ За подробностями сюда!


#анонс
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👍3🤪1
📰 Как ИИ помогает разбираться в нормативных документах?

В конце января Юлия Беликова приняла участие в международной конференции COLING 2025 в Абу-Даби, где в рамках воркшопа RegNLP постер по статье RAGulator: Effective RAG for Regulatory Question Answering.

В статье предложен улучшенный подход RAG (Retrieval-Augmented Generation), который:
Использует гибридный поиск, чтобы находить самый релевантный контекст.
Включает модификацию процесса декодирования языковой модели для повышения качества генерируемых ответов.

Такие решения помогают автоматизировать работу с нормативными актами и быстрее находить нужные данные.


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍63💅2
📰 Как заставить модель не только слышать, но и чувствовать?

Наша команда, AIRI и МФТИ собрали CA-SER — модель, которая ловит эмоции в голосе. В ход пошли предобученная wav2vec 2.0 и акустические фичи (MFCC), а чтобы всё это работало синхронно, прикрутили механизм перекрёстного внимания.

Что на выходе?
🔘 Реалтайм - детект эмоций. Анализирует не только текст, но и акустику (громкость, тон, настроение)
🔘 Open - source — можно затащить в голосовые ассистенты, call-центры, медицину, кастомизировать под свои таски
🔘 CA-SER показала точность 74,6% на сложном датасете IEMOCAP, опередив многие аналоги
🔘 Статья зашла на топовую европейскую конфу ECAI 2024

Код можно пощупать здесь!


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
👍765
🤖 From LLMs to AI Agents

Запускаем открытые семинары про AI, и первый уже скоро!

6 марта в 17:00 Миле Митрович (Sber AI Lab) расскажет, как LLM выходят за рамки чат-ботов и становятся частью агентных систем

Что обсудим:
🔘 Сильные и слабые стороны LLM в реальных задачах
🔘 Как компаунд-системы делают их умнее
🔘 Что такое ИИ-агенты и зачем в них LLM

Послушать можно по ссылке


#анонс
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍4👾21🕊1
📰 Датасет для анализа коронарных сосудов: обнаружение выбросов и оценка неопределенности

Делимся статьей с датасетом и бенчмарком для анализа видео коронарных сосудов в рентгеновских лучах.

Датасет отлично подходит для исследования outlier detection и оценки неопределённости: большинство записей - это нормальные случаи, но можно потестить устойчивость моделей на out-of-distribution примерах — например, когда в кадре появляется электрод.

Есть такие случаи, где в силу специфики анатомии,
даже опытные специалисты не сходятся во мнении - языком ML это случаи, которые находятся рядом с разделяющей поверхностью.

Статью подготовили вместе с учеными Тюменского кардиоцентра (филиал Томского НИМЦ).

Если копаете медицину и компьютерное зрение — вам сюда.


#новости
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👏4👍21
⚡️ Мультимодальность, приклад, CV

Продолжаем открытые семинары про AI — следующий уже в четверг!

13 марта в 17:00 Дмитрий Сенюшкин (AIRI) расскажет про мультимодальное обучение в прикладных задачах компьютерного зрения

Что обсудим:
➡️ Практические аспекты построения и обучения нейросетевых CV - моделей, задействующих несколько различных источников данных
➡️ Оригинальные способы обучения многоцелевых моделей
➡️ Архитектурные лайфхаки для улучшения качества в прикладных задачах

Заходите послушать по ссылке


#анонс
@sb_ai_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍732