Yandex for Analytics – Telegram
Yandex for Analytics
7.19K subscribers
358 photos
22 videos
133 links
Канал для аналитиков от Яндекса. Рассказываем о событиях, обсуждаем кейсы, знакомимся с командами и внимательно смотрим на данные.

Чат: t.me/YandexDataDriven
Вопросы: @Ekaterina_Lyagina

Все каналы Яндекса по стекам: https://news.1rj.ru/str/addlist/Hrq31w2p1vUyOGZi
Download Telegram
Как продать бизнесу автоматизацию процессов

Рассказывает Анжелика Кольцова, аналитик из Яндекс Лавки. За последний год команда автоматизировала три больших процесса:

🔵 Прогноз для товара-новинки. Раньше одну задачу выполняли за 3 дня, теперь — за 1 час. Разработка заняла 8 месяцев

🔵 Обновление состава свойств ALOSA platinum. Раньше одну задачу выполняли за 2 дня, теперь — за 5 минут. Разработка заняла 2 месяца

🔵 Загрузка ручного прогноза в ML. Раньше одну задачу выполняли за 1,5 дня, теперь её делают мгновенно. Разработка заняла 1 месяц

👳 В карточках Анжелика рассказывает, какие метрики показать бизнесу, чтобы продать идею автоматизации.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥11👍7❤‍🔥2🥰1
🧑‍💻 10 мифов об A/B-тестировании

Привет! На связи Диля Хакимова. Я из команды экспериментальной платформы Laba в Яндекс Go: помогаю руководителям и аналитикам быстро получать нужную им информацию с помощью A/B-тестирования.

В статистическом анализе легко запутаться. Мифы о нëм регулярно всплывают в разговорах с руководителями, на собеседованиях и даже среди коллег-аналитиков. Иногда заблуждения кажутся безобидными, но на деле могут привести к серьёзным ошибкам, неверным решениям и упущенным возможностям.

В статье на Хабре мы с коллегами разобрали самые популярные мифы: решение каждой из проблем сопроводили примером на GitHub. А ещё собрали 10 советов, как не попасть в самые популярные ловушки

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥94👍4🤓2
🥤 История о том, как бот взял на себя часть работы аналитиков и сделал их заказчиков счастливее

Речь о self-service-решении для сегментации пользователей. Бот помогает продактам и другим заинтересованным лицам быстро и без лишнего труда узнать размер той части пользователей, которая их интересует. И уберегает аналитиков от лишней операционки.

👳 В карточках Антон Рябченко из Яндекс Еды показал, как устроен бот, почему он пользуется популярностью и каким может стать в будущем.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2374🌚1
💠 Почему лень — это мастхев для аналитика

Привет, это Лёша Гожев, руководитель аналитики Яндекс Путешествий. Знаете, все воспринимают лень как что-то плохое. Ещё в детстве родители говорили нам: «Хватит лениться! Сделай то, сделай это». А я убеждён, что лень может и должна приносить пользу.

В этом посте я постараюсь показать, почему настоящая аналитическая лень — не про прокрастинацию, а про разумную экономию ресурсов. Погнали!

🔴 Лень — это фильтр бессмысленных задач

Не делайте работу просто так. Перед любой задачей нужно задать себе два важных вопроса:

🔵 Какое решение бизнес примет на основе этих данных?
🔵 Что будет, если просто ничего не делать?

Это важно, потому что:

🔵 60% дашбордов открываются заказчиками только пару раз после создания (или не открываются вовсе)
🔵 Многие отчёты или графики на дашборде делаются на всякий случай (который часто не наступает даже спустя годы)
🔵 Половину глубинных анализов можно смело заменить быстрыми оценками и не закапывать недели работы аналитика

🤖 Автоматизируйте всё, что будет повторяться

Расскажу про типичный кейс из практики. Ручной сбор данных для партнёров ежедневно занимает у менеджера 1–2 часа. Если мы потратим 10 часов на автоматизацию, то сэкономим команде больше 3 рабочих дней в месяц. Вроде бы звучит не очень масштабно, но теперь вспомните, что это не единственный отчёт и менеджер тоже не один 😉

Поэтому помните о хорошем правиле: если действие повторяется больше 3 раз, автоматизируйте его!


Для этого все средства хороши. Используйте:

🔵 Python-скрипты
🔵 Параметризованные SQL-запросы в БД
🔵 Макросы в Excel

📦 Скорость часто бывает важнее точности

В каких ситуациях достаточно приблизительных данных:

🔵 Приоритизация задач
🔵 Быстрые эксперименты
🔵 Оценка потенциала гипотез

Например, нам нужно спрогнозировать эффект от новой функции:

🔵 Идеальная модель — 5 дней → точность 95%
🔵 Грубая оценка — 20 минут → точность 80%

🧠 Создайте своё личное DWH, чтобы спастись от хаоса

Заведите себе базу знаний, обновляйте её после каждого нового кейса и храните там даже неудачные попытки. Один мой скрипт 2019 года с хитрым хаком неожиданно пригодился мне аж в 2024-м!

Что ещё стоит туда добавить:

🔵 Шаблоны частотных запросов с комментариями в коде
🔵 Чек-листы для типовых задач
🔵 Словарь метрик с формулами и источниками данных
🔵 Личный или командный FAQ по работе с данными

P. S. А настоящий подвиг — репостнуть этот текст в свой канал или рабочий чат, чтобы другие аналитики тоже могли качественно полениться 😌

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6326👍9🌚3
📕 Что заботать от ШАД

Делимся списком годных открытых ресурсов от ребят из Школы анализа данных. Подборка пригодится тем, кто только вкатывается в ML или хочет самостоятельно прокачаться в соседней области. Скидывайте пост вашим знакомым джунам — пусть учатся!

Вот ссылки:

Открытый учебник по машинному обучению

А ещё интенсивы:

🔵 CV week — полный упор на диффузионные генеративные модельки. Лекции читают ребята, которые создают YandexART. Перед изучением диффузионок рекомендуем вкатиться в классический CV, хотя это интенсив, а не курс, так что можете залететь и просто так (но предупреждаем: скорее всего, будет больно).

🔵 GPT week — базовая база про LLM’ки. Сначала претрейн, потом оценка качества и бенчи, а после алайменты и инференсы моделей. Есть подготовительная лекция с введением в LLM, поэтому можно залетать без особой подготовки: достаточно понимать, что вообще происходит в NLP.

🔵 SRE week — хороший интенсив про высоконагруженные системы и то, как ими заниматься. На практике такое потыкать почти нереально, поэтому очень любопытно хоть что-то узнать от практикующих разработчиков и инженеров. Помимо базы, там расскажут, почему важно погружаться в языки программирования, зачем нужны дежурства и как процессно проводить работу SRE.

🔵 Big DWH week — плотная база про распределённые БД (в том числе YT), потоковую обработку и логирование. Есть даже лекция про построение своей первой модели MapReduce и немного полезного про графовое DWH!

Из курсов на GitHub посоветуем один про алгоритмы, потому что они вечные и никогда не устареют:

Алгоритмы с Максимом Бабенко

И интересную подборку не от ШАД:

Это База знаний от Яндекс Образования

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥14❤‍🔥5🤓21🆒1
🧑‍💻 Сможете сформулировать теорему Байеса?

Она понадобится для решения сегодняшней задачи — продолжаем вспоминать базовую теорию на простых примерах. Предыдущую задачу разбирали вот тут. А вот и новая.

В одной компании захотели проверить, знают ли стажёры SQL. 30% стажёров оказались готовы к тесту, остальные — нет. С тестом справились 90% подготовленных стажёров и только 20% неподготовленных.

Если стажёр успешно прошёл тест, какова вероятность, что он был готов к нему?


🐚 Предлагаем размяться и проверить свои навыки! Опубликовали правильный ответ с разбором. Но если вы видите задачу в первый раз, поделитесь своим решением в комментариях!

#задачи_для_аналитиков

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
10👀3🔥2🦄2🐳1
👀 Если вы можете вспомнить теорему Байеса, то наверняка справились с нашей задачей

А вот и ответ: проверьте себя!

Разобраться, что известно, а что надо найти, — уже половина решения. Введём обозначения:

• P(Готов) = 0,3 — вероятность того, что стажёр был готов к тесту.
• P(Сдал|Готов) = 0,9 — вероятность того, что стажёр справился с тестом и был к нему готов.
• P(Сдал|НеГотов) = 0,2 — вероятность того, что стажёру повезло пройти тест без подготовки.
• P(НеГотов) = 0,7 — вероятность того, что нерадивый стажёр получил заслуженный неуд.

Тогда полная вероятность успешно справиться с тестом запишется в следующем виде:

P(Сдал) = 0,3 × 0,9 + 0,7 × 0,2 = 0,27 + 0,14 = 0,41


А дальше используем ту самую теорему Байеса:

P(Готов|Сдал) = [P(Сдал|Готов) × P(Готов)] / P(Сдал) = (0,9 × 0,3) / 0,41 ≈ 0,6585 ≈ 65,9%


Совет. Решая задачу на работе или на собеседовании, аккуратно вводите обозначения. Не стоит называть события A/B или X/Y — в стрессовой ситуации или спешке легко запутаться в абстрактных параметрах и ошибиться в решении.

💠 Хотите ещё задач? Ставьте лайк — поштормим вместе!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
53🔥14❤‍🔥4🎉2
🧑‍💻 Как использовать ИИ в работе

Это AI Dev Day — первый митап Яндекса на эту тему. Мы обсудим, как ИИ-агенты ускоряют процессы, помогают разработчикам работать с кодом и автоматизировать рутинные задачи.

27 июля ждём аналитиков и разработчиков, которые ищут способы побороть рутину и повысить свою эффективность.

Для этого мы подготовили 2 формата обмена опытом:

🔵 Доклады об инструментах AI Productivity. Спикеры расскажут, как внедрять ИИ в команды разных направлений и в каких случаях в этом нет необходимости

🔵 Lightning talks. Короткие выступления тех, кто попробовал ИИ в реальных проектах и готов подсветить свои успехи, провалы и актуальные инсайты

Посмотреть программу и зарегистрироваться можно здесь.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42
A/B Week — новый онлайн-интенсив ШАД

Соскучились по интенсивам? Мы — да. Поэтому предлагаем вам с головой погрузиться в А/В-тестирование вместе с экспертом Школы анализа данных. Здесь вы отточите свои знания статистики, поймёте, как проводят А/В-тесты в Яндексе, и получите набор инструментов на Python, которые сразу сможете применить в работе.

Аналитик-разработчик и эксперт Яндекса Диля Хакимова расскажет:

🔵 Что такое Bootstrap, CUPED, линеаризация и другие техники
🔵 Как симуляции и математические методы позволяют анализировать результаты тестов и помогают формулировать решения для бизнес-задач

Внимание: спойлеры к интенсиву 🤫

CUPED, Bootstrap и линеаризация — это продвинутые статистические инструменты для повышения эффективности A/B-тестов. Например, CUPED снижает «шум» в данных и использует информацию о поведении пользователей до эксперимента. Bootstrap незаменим для анализа нестандартных, но важных показателей, таких как медианный доход или квантили метрик времени. Линеаризация и дельта-метод — стандарт индустрии для анализа сложных метрик-отношений (например, конверсии или среднего чека).

Математические расчёты можно применять уже на этапе планирования для оценки длительности эксперимента. Симуляции же подбирают тот статистический критерий, который подходит именно под вашу бизнес-задачу. В итоге благодаря грамотным статистическим методам банальное «стало лучше/хуже» превращается в глубокий бизнес-анализ и подробную оценку рисков.


Кому пригодится интенсив?

🔵 Аналитикам данных
🔵 ML-инженерам
🔵 Студентам технических специальностей

Чему научатся участники?

🔵 Проводить А/В-тесты и анализировать их результаты
🔵 Разбираться в новейших методах А/В-тестирования
🔵 Повышать чувствительность метрик, ускорять эксперименты и экономить ресурсы
🔵 Строить доверительные интервалы и контролировать бизнес-риски
🔵 Валидировать любой аналитический подход через симуляции

Доступ к лекциям будет открыт для всех, кто успеет зарегистрироваться по ссылке до 25 июля. А чтобы похвастаться сертификатом интенсива, нужно будет выполнить отборочные задания и итоговую работу.

💠 Ждём заявок от вас и ваших друзей!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
30👍4🔥2🦄2
🚀 Как батчинг вырастил эффективность доставки в 2,5 раза за полтора года

В Яндекс Доставке мы возим очень разные вещи: от горячих бургеров до новых айфонов. Задача сервиса в том, чтобы быстро найти на каждую посылку подходящего курьера. Но если мы хотим доставлять эффективно, заказы приходится объединять, чтобы можно было отвезти несколько товаров за один присест. А для этого нужна сложная система, которая не допустит, чтобы бургер остыл, пока курьер ездил за айфоном.

Лилия Царёва, руководитель группы развития технологий батчинга в Яндекс Доставке, рассказывает, как устроена технология. Внутри:

🔵 Как ребята перешли от предварительного расчёта маршрутов к решению в реальном времени
🔵 Что делать, если заказы слишком быстро разбирают и они не успевают сбатчиться
🔵 Как метрика MASDI ограничивает замедление доставки
🔵 И самое интересное: как неплохой и быстрый внутренний движок подружился с мощным, но медленным алгоритмом из RouteQ

Прочитать статью можно здесь

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍31
🧑‍💻 Искали баланс скорости и качества, а в итоге отказались от кандидатогенерации в RecSys

Что удивительно: это не помешало выдерживать рантайм-нагрузку и привело к результату лучше всех ожиданий. Подробности рассказывает Марк Нарусов, ML-разработчик группы рекомендательных сервисов в Лавке.

Зачем вообще нужна кандидатогенерация? Когда речь идёт о миллионах или миллиардах объектов (пусть это и гипотетический пример: в реальности ассортимент одного даркстора Яндекс Лавки — это несколько тысяч SKU), разумно для начала отобрать ограниченный набор кандидатов и пускать в модель только их, чтобы нейросеть не надрывалась, а пользователь не ждал обновления ленты по 3 секунды.

👀 Но мы решили, что не хотим компромиссов, и дали нашей модели увидеть всё.

Чем ещё пришлось пожертвовать ради великой цели, какие метрики показывают, что всё получилось, и как наше новое решение помогло сделать код чище — читайте в статье Марка Нарусова.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥21🤔1
🦠 Поговорим про роль пет-проектов в вашем резюме

Привет, это Александр Исаков, руководитель группы прогноза в Яндекс Лавке. Я считаю, что в резюме кандидата должны быть личные проекты: иногда они показывают ваши навыки и умения даже лучше, чем рабочие задачи.

Смело кидайте ссылочку на репозиторий потенциальному работодателю! А если подходящих пет-проектов у вас пока нет, вот несколько занятных идей:

🈂️ Классификация медицинских статей по рубрикам

Данные: PubMed MultiLabel Text Classification Dataset MeSH
Бейзлайн: логистическая регрессия

Что делаем:

🔵 Грузим и готовим данные, ищем пропущенные значения и по возможности обрабатываем. Можно провести нормализацию текста
🔵 На основе текстовых описаний генерируем исходные численные параметры текста. Например, можно посчитать TF-IDF
🔵 Генерируем признаки на основе полученных начальных
🔵 Отбираем признаки, оставляем место только для самых важных
🔵 Разбиваем данные на train / OOS (out-of-sample) / OOT (out-of-time)
🔵 Обучаем базовую модельку логистической регрессии. Как это реализовать, показано вот тут

Как улучшить:

🔵 Использовать деревянные модели: Random Forest Regressor или любой бустинг, имя которого нам нравится
🔵 Копнуть чуть глубже и протестировать, например, нейросети для работы с последовательностями или архитектуры на основе трансформеров. Например, как тут

💎 Скилы, которые можно прокачать: работа с текстовыми данными, Feature Engineering, работа с табличными данными и NLP.

🈂️ Рекомендательная система для фильмов

Данные: MovieLens Dataset

Бейзлайн: матричные разложения (Matrix Factorization). Пример кода есть вот тут

Что делаем:

🔵 Классически собираем данные без обработки
🔵 На их основе строим user-item matrix. Дальше можно обработать данные — допустим, сделать взвешенный рейтинг по числу просмотров
🔵 По возможности засовываем туда SVD (singular value decomposition)

Как улучшить:

🔵 Перейти от матричных разложений к контентным рекомендациям. Например, подгрузить к каждому фильму описание. Или взять другую выборку с информацией об айтемах — например, датасет от Яндекса Yambda-5B (статья тут)
🔵 Взять весь скоуп рекомендательных моделей, про которые слышали, сделать фит-предикт и искать корнер-кейсы для улучшения

💎 Скилы, которые можно прокачать: рекомендательные системы, матричное
разложение, нейросетевые методы работы с рекомендациями.

🈂️ Распознавание объектов на изображениях

Данные: CIFAR-10 Dataset (или любой другой с кагглов)
Бейзлайн: любая (желательно самописная) CNN-сеточка

Что делаем:

🔵 Загружаем и нормализуем изображения
🔵 Строим базовый CNN с несколькими свёрточными и pooling-слоями. Более продвинутые модели можно поискать тут
🔵 Разбиваем данные на тренировку и валидацию
🔵 Обучаем модели с использованием нужного нам лосса, например Cross Entropy Loss

Как улучшить:

🔵 Используйте более сложные модели типа ResNet EfficientNet. И накидайте побольше эпох!
🔵 Применяйте Transfer Learning с использованием предобученных моделей. Или вообще попробуйте применить CLIP

💎 Скилы, которые можно прокачать: обработка изображений, свёрточные нейронные сети, Transfer Learning.

А если вам нужны ещё идеи — смотрите мой пост с пет-проектами в геоаналитике со спутниковыми снимками. Удачи!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1862🥴2👾2👍1🆒1
💠 Спасибо, что пришли на вечеринку аналитиков!

Вот и прошёл наш первый митап в Санкт-Петербурге — получилось очень душевно. Вы правда крутые, и мы были рады затусить вместе. Надеемся, что вам тоже всё понравилось.

Не получилось прийти на митап? Не беда — специально для вас выложили записи докладов:

🔵 Алексей Чубуков, аналитик группы поиска и назначения водителей в Яндекс Такси. Рассказал, как устроен поиск водителей, в чём состоит основная проблема с нагрузкой и как её оптимизировать. А ещё показал, какие эксперименты проводила его команда. Смотрите на ютубе или в VK Видео

🔵 Владимир Соколовский, аналитик группы маркетинговой эффективности в Яндекс Маркете. Объяснил, какие инструменты оценки эффективности существуют, зачем они нужны и как построить из них единый фреймворк (и развивать его на разных этапах). Смотрите на ютубе или в VK Видео

🔵 Дмитрий Ефимов, руководитель отдела эффективности и аналитики в Яндекс Еде. Рассказал, как команда разрабатывает, вводит и тестирует новые фичи, чтобы сервис становился лучше с каждым годом. Смотрите на ютубе или в VK Видео

🔵 Арина Якимушкина, аналитик-разработчик отдела NLP бизнес-группы Поиска и Рекламных технологий. Затронула проблему краудсорс-разметки, рассказала об особенностях разметки с помощью YandexGPT и поделилась полезными лайфхаками промптизации. Смотрите на ютубе или в VK Видео

Делитесь впечатлениями в комментариях, держите руку на пульсе и следите за анонсами. Ещё увидимся!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2613👍5🦄2🌚1