Yandex for Analytics – Telegram
Yandex for Analytics
7.2K subscribers
358 photos
22 videos
133 links
Канал для аналитиков от Яндекса. Рассказываем о событиях, обсуждаем кейсы, знакомимся с командами и внимательно смотрим на данные.

Чат: t.me/YandexDataDriven
Вопросы: @Ekaterina_Lyagina

Все каналы Яндекса по стекам: https://news.1rj.ru/str/addlist/Hrq31w2p1vUyOGZi
Download Telegram
👀 Если вы можете вспомнить теорему Байеса, то наверняка справились с нашей задачей

А вот и ответ: проверьте себя!

Разобраться, что известно, а что надо найти, — уже половина решения. Введём обозначения:

• P(Готов) = 0,3 — вероятность того, что стажёр был готов к тесту.
• P(Сдал|Готов) = 0,9 — вероятность того, что стажёр справился с тестом и был к нему готов.
• P(Сдал|НеГотов) = 0,2 — вероятность того, что стажёру повезло пройти тест без подготовки.
• P(НеГотов) = 0,7 — вероятность того, что нерадивый стажёр получил заслуженный неуд.

Тогда полная вероятность успешно справиться с тестом запишется в следующем виде:

P(Сдал) = 0,3 × 0,9 + 0,7 × 0,2 = 0,27 + 0,14 = 0,41


А дальше используем ту самую теорему Байеса:

P(Готов|Сдал) = [P(Сдал|Готов) × P(Готов)] / P(Сдал) = (0,9 × 0,3) / 0,41 ≈ 0,6585 ≈ 65,9%


Совет. Решая задачу на работе или на собеседовании, аккуратно вводите обозначения. Не стоит называть события A/B или X/Y — в стрессовой ситуации или спешке легко запутаться в абстрактных параметрах и ошибиться в решении.

💠 Хотите ещё задач? Ставьте лайк — поштормим вместе!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
53🔥15❤‍🔥4🎉2
🧑‍💻 Как использовать ИИ в работе

Это AI Dev Day — первый митап Яндекса на эту тему. Мы обсудим, как ИИ-агенты ускоряют процессы, помогают разработчикам работать с кодом и автоматизировать рутинные задачи.

27 июля ждём аналитиков и разработчиков, которые ищут способы побороть рутину и повысить свою эффективность.

Для этого мы подготовили 2 формата обмена опытом:

🔵 Доклады об инструментах AI Productivity. Спикеры расскажут, как внедрять ИИ в команды разных направлений и в каких случаях в этом нет необходимости

🔵 Lightning talks. Короткие выступления тех, кто попробовал ИИ в реальных проектах и готов подсветить свои успехи, провалы и актуальные инсайты

Посмотреть программу и зарегистрироваться можно здесь.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42
A/B Week — новый онлайн-интенсив ШАД

Соскучились по интенсивам? Мы — да. Поэтому предлагаем вам с головой погрузиться в А/В-тестирование вместе с экспертом Школы анализа данных. Здесь вы отточите свои знания статистики, поймёте, как проводят А/В-тесты в Яндексе, и получите набор инструментов на Python, которые сразу сможете применить в работе.

Аналитик-разработчик и эксперт Яндекса Диля Хакимова расскажет:

🔵 Что такое Bootstrap, CUPED, линеаризация и другие техники
🔵 Как симуляции и математические методы позволяют анализировать результаты тестов и помогают формулировать решения для бизнес-задач

Внимание: спойлеры к интенсиву 🤫

CUPED, Bootstrap и линеаризация — это продвинутые статистические инструменты для повышения эффективности A/B-тестов. Например, CUPED снижает «шум» в данных и использует информацию о поведении пользователей до эксперимента. Bootstrap незаменим для анализа нестандартных, но важных показателей, таких как медианный доход или квантили метрик времени. Линеаризация и дельта-метод — стандарт индустрии для анализа сложных метрик-отношений (например, конверсии или среднего чека).

Математические расчёты можно применять уже на этапе планирования для оценки длительности эксперимента. Симуляции же подбирают тот статистический критерий, который подходит именно под вашу бизнес-задачу. В итоге благодаря грамотным статистическим методам банальное «стало лучше/хуже» превращается в глубокий бизнес-анализ и подробную оценку рисков.


Кому пригодится интенсив?

🔵 Аналитикам данных
🔵 ML-инженерам
🔵 Студентам технических специальностей

Чему научатся участники?

🔵 Проводить А/В-тесты и анализировать их результаты
🔵 Разбираться в новейших методах А/В-тестирования
🔵 Повышать чувствительность метрик, ускорять эксперименты и экономить ресурсы
🔵 Строить доверительные интервалы и контролировать бизнес-риски
🔵 Валидировать любой аналитический подход через симуляции

Доступ к лекциям будет открыт для всех, кто успеет зарегистрироваться по ссылке до 25 июля. А чтобы похвастаться сертификатом интенсива, нужно будет выполнить отборочные задания и итоговую работу.

💠 Ждём заявок от вас и ваших друзей!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
30👍4🔥2🦄2
🚀 Как батчинг вырастил эффективность доставки в 2,5 раза за полтора года

В Яндекс Доставке мы возим очень разные вещи: от горячих бургеров до новых айфонов. Задача сервиса в том, чтобы быстро найти на каждую посылку подходящего курьера. Но если мы хотим доставлять эффективно, заказы приходится объединять, чтобы можно было отвезти несколько товаров за один присест. А для этого нужна сложная система, которая не допустит, чтобы бургер остыл, пока курьер ездил за айфоном.

Лилия Царёва, руководитель группы развития технологий батчинга в Яндекс Доставке, рассказывает, как устроена технология. Внутри:

🔵 Как ребята перешли от предварительного расчёта маршрутов к решению в реальном времени
🔵 Что делать, если заказы слишком быстро разбирают и они не успевают сбатчиться
🔵 Как метрика MASDI ограничивает замедление доставки
🔵 И самое интересное: как неплохой и быстрый внутренний движок подружился с мощным, но медленным алгоритмом из RouteQ

Прочитать статью можно здесь

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍31
🧑‍💻 Искали баланс скорости и качества, а в итоге отказались от кандидатогенерации в RecSys

Что удивительно: это не помешало выдерживать рантайм-нагрузку и привело к результату лучше всех ожиданий. Подробности рассказывает Марк Нарусов, ML-разработчик группы рекомендательных сервисов в Лавке.

Зачем вообще нужна кандидатогенерация? Когда речь идёт о миллионах или миллиардах объектов (пусть это и гипотетический пример: в реальности ассортимент одного даркстора Яндекс Лавки — это несколько тысяч SKU), разумно для начала отобрать ограниченный набор кандидатов и пускать в модель только их, чтобы нейросеть не надрывалась, а пользователь не ждал обновления ленты по 3 секунды.

👀 Но мы решили, что не хотим компромиссов, и дали нашей модели увидеть всё.

Чем ещё пришлось пожертвовать ради великой цели, какие метрики показывают, что всё получилось, и как наше новое решение помогло сделать код чище — читайте в статье Марка Нарусова.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥21🤔1
🦠 Поговорим про роль пет-проектов в вашем резюме

Привет, это Александр Исаков, руководитель группы прогноза в Яндекс Лавке. Я считаю, что в резюме кандидата должны быть личные проекты: иногда они показывают ваши навыки и умения даже лучше, чем рабочие задачи.

Смело кидайте ссылочку на репозиторий потенциальному работодателю! А если подходящих пет-проектов у вас пока нет, вот несколько занятных идей:

🈂️ Классификация медицинских статей по рубрикам

Данные: PubMed MultiLabel Text Classification Dataset MeSH
Бейзлайн: логистическая регрессия

Что делаем:

🔵 Грузим и готовим данные, ищем пропущенные значения и по возможности обрабатываем. Можно провести нормализацию текста
🔵 На основе текстовых описаний генерируем исходные численные параметры текста. Например, можно посчитать TF-IDF
🔵 Генерируем признаки на основе полученных начальных
🔵 Отбираем признаки, оставляем место только для самых важных
🔵 Разбиваем данные на train / OOS (out-of-sample) / OOT (out-of-time)
🔵 Обучаем базовую модельку логистической регрессии. Как это реализовать, показано вот тут

Как улучшить:

🔵 Использовать деревянные модели: Random Forest Regressor или любой бустинг, имя которого нам нравится
🔵 Копнуть чуть глубже и протестировать, например, нейросети для работы с последовательностями или архитектуры на основе трансформеров. Например, как тут

💎 Скилы, которые можно прокачать: работа с текстовыми данными, Feature Engineering, работа с табличными данными и NLP.

🈂️ Рекомендательная система для фильмов

Данные: MovieLens Dataset

Бейзлайн: матричные разложения (Matrix Factorization). Пример кода есть вот тут

Что делаем:

🔵 Классически собираем данные без обработки
🔵 На их основе строим user-item matrix. Дальше можно обработать данные — допустим, сделать взвешенный рейтинг по числу просмотров
🔵 По возможности засовываем туда SVD (singular value decomposition)

Как улучшить:

🔵 Перейти от матричных разложений к контентным рекомендациям. Например, подгрузить к каждому фильму описание. Или взять другую выборку с информацией об айтемах — например, датасет от Яндекса Yambda-5B (статья тут)
🔵 Взять весь скоуп рекомендательных моделей, про которые слышали, сделать фит-предикт и искать корнер-кейсы для улучшения

💎 Скилы, которые можно прокачать: рекомендательные системы, матричное
разложение, нейросетевые методы работы с рекомендациями.

🈂️ Распознавание объектов на изображениях

Данные: CIFAR-10 Dataset (или любой другой с кагглов)
Бейзлайн: любая (желательно самописная) CNN-сеточка

Что делаем:

🔵 Загружаем и нормализуем изображения
🔵 Строим базовый CNN с несколькими свёрточными и pooling-слоями. Более продвинутые модели можно поискать тут
🔵 Разбиваем данные на тренировку и валидацию
🔵 Обучаем модели с использованием нужного нам лосса, например Cross Entropy Loss

Как улучшить:

🔵 Используйте более сложные модели типа ResNet EfficientNet. И накидайте побольше эпох!
🔵 Применяйте Transfer Learning с использованием предобученных моделей. Или вообще попробуйте применить CLIP

💎 Скилы, которые можно прокачать: обработка изображений, свёрточные нейронные сети, Transfer Learning.

А если вам нужны ещё идеи — смотрите мой пост с пет-проектами в геоаналитике со спутниковыми снимками. Удачи!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1862🥴2👾2👍1🆒1
💠 Спасибо, что пришли на вечеринку аналитиков!

Вот и прошёл наш первый митап в Санкт-Петербурге — получилось очень душевно. Вы правда крутые, и мы были рады затусить вместе. Надеемся, что вам тоже всё понравилось.

Не получилось прийти на митап? Не беда — специально для вас выложили записи докладов:

🔵 Алексей Чубуков, аналитик группы поиска и назначения водителей в Яндекс Такси. Рассказал, как устроен поиск водителей, в чём состоит основная проблема с нагрузкой и как её оптимизировать. А ещё показал, какие эксперименты проводила его команда. Смотрите на ютубе или в VK Видео

🔵 Владимир Соколовский, аналитик группы маркетинговой эффективности в Яндекс Маркете. Объяснил, какие инструменты оценки эффективности существуют, зачем они нужны и как построить из них единый фреймворк (и развивать его на разных этапах). Смотрите на ютубе или в VK Видео

🔵 Дмитрий Ефимов, руководитель отдела эффективности и аналитики в Яндекс Еде. Рассказал, как команда разрабатывает, вводит и тестирует новые фичи, чтобы сервис становился лучше с каждым годом. Смотрите на ютубе или в VK Видео

🔵 Арина Якимушкина, аналитик-разработчик отдела NLP бизнес-группы Поиска и Рекламных технологий. Затронула проблему краудсорс-разметки, рассказала об особенностях разметки с помощью YandexGPT и поделилась полезными лайфхаками промптизации. Смотрите на ютубе или в VK Видео

Делитесь впечатлениями в комментариях, держите руку на пульсе и следите за анонсами. Ещё увидимся!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2613👍5🦄2🌚1
🧑‍💻 Нейроаналитик: наш специалист по графикам и инсайтам

Хорошие новости! Yandex B2B Tech совсем скоро запустит AI-агента. С ним можно делать всякое полезное: например, создавать сложные графики и дашборды на JavaScript. Ещё он может искать инсайты, делать выводы из таблиц, а также консультировать по документации.

Агент будет встроен в Yandex DataLens в форме чата. Чтобы перестроить график или изменить источник, не нужно вручную исправлять код на JavaScript. Достаточно сделать запрос на естественном языке — модель всё поймёт и скорректирует визуализацию.

💎 Новая версия сервиса Yandex DataLens с AI-агентом будет доступна как в облаке, так и локально — по модели on-premise.

💎 Более 4 тысяч сотрудников уже протестировали сервис в течение первых двух недель.

В сентябре Нейроаналитик станет доступен и другим компаниям — в лист ожидания можно записаться уже сейчас.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍134🔥3😭32
☁️ Ловушка конфаундинга: ищем взаимосвязи, которых на самом деле нет

Представим, что вас попросили посчитать влияние обучения на эффективность сотрудников. Вы построили простую линейную регрессию и получили +0,53% к эффективности сотрудника за каждый балл экзамена. Уже готовы нести выводы заказчику? Погодите, вы могли попасть в ловушку конфаундинга!

Конфаундинг — это неприятная ситуация, когда третьи переменные искажают оценку причинной связи. Последствия этого могут быть самыми драматичными. Особенно в больших компаниях, где каждый процент на счету.

Саша Ботвин, руководитель команды HR-аналитики в Яндексе, рассказывает о современном каузальном анализе и конфаундинге. Всё это с опорой на исследования антрополога Ричарда Макэлрита. А ещё Саша показывает:

🔵 Какие бывают типы конфаундинга

🔵 Как с помощью DAG найти ловушку и успешно её обезвредить

🔵 Сколько будет стоить игнор конфаундинга

Подробная практическая часть с таблицами, схемами, кодом и обширным списком литературы — в полной статье на Хабре.

👀 Будьте осторожны и глядите в оба!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥7👍2🐳1👀1
🛎 Открылась регистрация на big tech night

big tech night — «Ночь музеев» в мире IT. Яндекс, Сбер, X5, Т-Банк и Lamoda 12 сентября в Москве откроют двери своих офисов для тех, кто любит технологии.

Присоединяйтесь, чтобы увидеть новые разработки, обменяться экспертизой, найти единомышленников и просто хорошо провести время. В программе — доклады, экскурсии-погружения, лаборатория софт-скилов, роботы, гик-вечеринка и многое другое.

Всего будет 5 треков докладов, каждый привязан к конкретной площадке:

🔵 Next-Gen Development — офис Яндекса
🔵 Мультиагентные системы в продукте и бизнес-процессах — офис Сбера
🔵 Архитектура и управление сложными системами — офис X5
🔵 AI для SDLC: от кода до прода — офис Т-Банка
🔵 Создание инфраструктуры для разработки и управление ей — офис Lamoda

Как зарегистрироваться:

Зайти на этот сайт
Выбрать 3 локации, которые вы хотите посетить за ночь

Но помните, что первая локация — ключевая. Начать обязательно нужно будет с неё. Здесь вы получите велком-пак big tech night с бейджем и браслетом участника. Он позволит пройти на остальные площадки. Второй и третий офисы можно будет поменять местами, если потребуется.

💻 А ещё можно подключиться онлайн, если вы не в столице.

💠 Будем ждать вас в офисе Яндекса!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1
Базовая база: продолжаем вспоминать основы вместе

Ловите задачу по теории игр.

Вы очутились перед игровым автоматом. Сыграть можно только один раз. Цена попытки — 100 рублей.

Если вы всё-таки решите попытать счастья, возможны несколько исходов:

• с вероятностью 5% вы выиграете 2000 рублей,
• с вероятностью 25% — 300 рублей,
• в остальных 70% вы не получите ничего.

Стоит ли играть, если ваша цель — заработать?


💠 Опубликовали правильный ответ с разбором. Но если вы видите задачу в первый раз, поделитесь своим решением в комментариях и попробуйте порешать предыдущие задачки:

🔵 Задача на теорию вероятностей + Разбор
🔵 Задача на теорему Байеса + Разбор

#задачи_для_аналитиков

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓64🔥4👾2👍1
🧑‍💻 Ну что, выиграли в теорию игр?

Проверьте себя: возвращаемся с разбором задачи.

Для решения этой задачи нам понадобится математическое ожидание — среднее значение случайной величины, взвешенное по вероятностям возможных значений. Используем его, чтобы оценить возможный выигрыш при многократном повторении игры.

Для начала вспомним вводные и запишем чистый выигрыш. Учитывая, что стоимость одной попытки — 100 рублей:
• с вероятностью 5% вы выиграете: 2000 − 100 = 1900 рублей
• с вероятностью 25%: 300 − 100 = 200 рублей
• с вероятностью 70%: 0 − 100 = −100 рублей

Средний выигрыш по определению матожидания составит:
M = 0,05 × 1900 + 0,25 × 200 + 0,7 × (−100) = 95 + 50 − 70 = 75 рублей

То есть в среднем — мы в плюсе. Играем!

Однако по условию мы можем сыграть только один раз — и проиграть всё. Так что стоило бы учесть ещё и толерантность к риску… Но в рамках этой задачи мы договаривались вспомнить только основы теории игр 😉


💡 Совет. Математическое ожидание ближе, чем кажется. Даже если вас не просят посчитать матожидание в явном виде, очень может быть, что именно его будет достаточно для решения задачи. Повторяйте базу, однажды она обязательно пригодится!

💠 Какая ваша любимая задача про матожидание? Делитесь в комментариях.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
😁167🐳4🔥3👍2🥱2
👳 Как жить и работать с витринами данных

Привет аналитикам! На связи Павел Беляев, тимлид группы обработки данных в дата-офисе сервиса eLama и автор канала «Тимлидское об аналитике». Основной продукт моей команды — это витрины данных. Уже 7 лет я занимаюсь их разработкой, поддержкой, управлением и так далее.

Сегодня я хочу поделиться своими наблюдениями за их жизнью 🔭 Надеюсь, это поможет вам выстроить работу дата-аналитиков так, чтобы получилось максимально эффективно и продуктивно.

Больше подробностей со ссылками ищите в моём личном канале.

А вот полезные материалы по карточкам:

🔵 Про тестирование витрин подробнее можно прочитать здесь

🔵 А узнать, как у нас организован поиск неактуальных витрин, можно тут

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥118😎3🤓1👀1