Yandex for Analytics – Telegram
Yandex for Analytics
7.19K subscribers
358 photos
22 videos
133 links
Канал для аналитиков от Яндекса. Рассказываем о событиях, обсуждаем кейсы, знакомимся с командами и внимательно смотрим на данные.

Чат: t.me/YandexDataDriven
Вопросы: @Ekaterina_Lyagina

Все каналы Яндекса по стекам: https://news.1rj.ru/str/addlist/Hrq31w2p1vUyOGZi
Download Telegram
🦠 Поговорим про роль пет-проектов в вашем резюме

Привет, это Александр Исаков, руководитель группы прогноза в Яндекс Лавке. Я считаю, что в резюме кандидата должны быть личные проекты: иногда они показывают ваши навыки и умения даже лучше, чем рабочие задачи.

Смело кидайте ссылочку на репозиторий потенциальному работодателю! А если подходящих пет-проектов у вас пока нет, вот несколько занятных идей:

🈂️ Классификация медицинских статей по рубрикам

Данные: PubMed MultiLabel Text Classification Dataset MeSH
Бейзлайн: логистическая регрессия

Что делаем:

🔵 Грузим и готовим данные, ищем пропущенные значения и по возможности обрабатываем. Можно провести нормализацию текста
🔵 На основе текстовых описаний генерируем исходные численные параметры текста. Например, можно посчитать TF-IDF
🔵 Генерируем признаки на основе полученных начальных
🔵 Отбираем признаки, оставляем место только для самых важных
🔵 Разбиваем данные на train / OOS (out-of-sample) / OOT (out-of-time)
🔵 Обучаем базовую модельку логистической регрессии. Как это реализовать, показано вот тут

Как улучшить:

🔵 Использовать деревянные модели: Random Forest Regressor или любой бустинг, имя которого нам нравится
🔵 Копнуть чуть глубже и протестировать, например, нейросети для работы с последовательностями или архитектуры на основе трансформеров. Например, как тут

💎 Скилы, которые можно прокачать: работа с текстовыми данными, Feature Engineering, работа с табличными данными и NLP.

🈂️ Рекомендательная система для фильмов

Данные: MovieLens Dataset

Бейзлайн: матричные разложения (Matrix Factorization). Пример кода есть вот тут

Что делаем:

🔵 Классически собираем данные без обработки
🔵 На их основе строим user-item matrix. Дальше можно обработать данные — допустим, сделать взвешенный рейтинг по числу просмотров
🔵 По возможности засовываем туда SVD (singular value decomposition)

Как улучшить:

🔵 Перейти от матричных разложений к контентным рекомендациям. Например, подгрузить к каждому фильму описание. Или взять другую выборку с информацией об айтемах — например, датасет от Яндекса Yambda-5B (статья тут)
🔵 Взять весь скоуп рекомендательных моделей, про которые слышали, сделать фит-предикт и искать корнер-кейсы для улучшения

💎 Скилы, которые можно прокачать: рекомендательные системы, матричное
разложение, нейросетевые методы работы с рекомендациями.

🈂️ Распознавание объектов на изображениях

Данные: CIFAR-10 Dataset (или любой другой с кагглов)
Бейзлайн: любая (желательно самописная) CNN-сеточка

Что делаем:

🔵 Загружаем и нормализуем изображения
🔵 Строим базовый CNN с несколькими свёрточными и pooling-слоями. Более продвинутые модели можно поискать тут
🔵 Разбиваем данные на тренировку и валидацию
🔵 Обучаем модели с использованием нужного нам лосса, например Cross Entropy Loss

Как улучшить:

🔵 Используйте более сложные модели типа ResNet EfficientNet. И накидайте побольше эпох!
🔵 Применяйте Transfer Learning с использованием предобученных моделей. Или вообще попробуйте применить CLIP

💎 Скилы, которые можно прокачать: обработка изображений, свёрточные нейронные сети, Transfer Learning.

А если вам нужны ещё идеи — смотрите мой пост с пет-проектами в геоаналитике со спутниковыми снимками. Удачи!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1862🥴2👾2👍1🆒1
💠 Спасибо, что пришли на вечеринку аналитиков!

Вот и прошёл наш первый митап в Санкт-Петербурге — получилось очень душевно. Вы правда крутые, и мы были рады затусить вместе. Надеемся, что вам тоже всё понравилось.

Не получилось прийти на митап? Не беда — специально для вас выложили записи докладов:

🔵 Алексей Чубуков, аналитик группы поиска и назначения водителей в Яндекс Такси. Рассказал, как устроен поиск водителей, в чём состоит основная проблема с нагрузкой и как её оптимизировать. А ещё показал, какие эксперименты проводила его команда. Смотрите на ютубе или в VK Видео

🔵 Владимир Соколовский, аналитик группы маркетинговой эффективности в Яндекс Маркете. Объяснил, какие инструменты оценки эффективности существуют, зачем они нужны и как построить из них единый фреймворк (и развивать его на разных этапах). Смотрите на ютубе или в VK Видео

🔵 Дмитрий Ефимов, руководитель отдела эффективности и аналитики в Яндекс Еде. Рассказал, как команда разрабатывает, вводит и тестирует новые фичи, чтобы сервис становился лучше с каждым годом. Смотрите на ютубе или в VK Видео

🔵 Арина Якимушкина, аналитик-разработчик отдела NLP бизнес-группы Поиска и Рекламных технологий. Затронула проблему краудсорс-разметки, рассказала об особенностях разметки с помощью YandexGPT и поделилась полезными лайфхаками промптизации. Смотрите на ютубе или в VK Видео

Делитесь впечатлениями в комментариях, держите руку на пульсе и следите за анонсами. Ещё увидимся!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2613👍5🦄2🌚1
🧑‍💻 Нейроаналитик: наш специалист по графикам и инсайтам

Хорошие новости! Yandex B2B Tech совсем скоро запустит AI-агента. С ним можно делать всякое полезное: например, создавать сложные графики и дашборды на JavaScript. Ещё он может искать инсайты, делать выводы из таблиц, а также консультировать по документации.

Агент будет встроен в Yandex DataLens в форме чата. Чтобы перестроить график или изменить источник, не нужно вручную исправлять код на JavaScript. Достаточно сделать запрос на естественном языке — модель всё поймёт и скорректирует визуализацию.

💎 Новая версия сервиса Yandex DataLens с AI-агентом будет доступна как в облаке, так и локально — по модели on-premise.

💎 Более 4 тысяч сотрудников уже протестировали сервис в течение первых двух недель.

В сентябре Нейроаналитик станет доступен и другим компаниям — в лист ожидания можно записаться уже сейчас.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍134🔥3😭32
☁️ Ловушка конфаундинга: ищем взаимосвязи, которых на самом деле нет

Представим, что вас попросили посчитать влияние обучения на эффективность сотрудников. Вы построили простую линейную регрессию и получили +0,53% к эффективности сотрудника за каждый балл экзамена. Уже готовы нести выводы заказчику? Погодите, вы могли попасть в ловушку конфаундинга!

Конфаундинг — это неприятная ситуация, когда третьи переменные искажают оценку причинной связи. Последствия этого могут быть самыми драматичными. Особенно в больших компаниях, где каждый процент на счету.

Саша Ботвин, руководитель команды HR-аналитики в Яндексе, рассказывает о современном каузальном анализе и конфаундинге. Всё это с опорой на исследования антрополога Ричарда Макэлрита. А ещё Саша показывает:

🔵 Какие бывают типы конфаундинга

🔵 Как с помощью DAG найти ловушку и успешно её обезвредить

🔵 Сколько будет стоить игнор конфаундинга

Подробная практическая часть с таблицами, схемами, кодом и обширным списком литературы — в полной статье на Хабре.

👀 Будьте осторожны и глядите в оба!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥7👍2🐳1👀1
🛎 Открылась регистрация на big tech night

big tech night — «Ночь музеев» в мире IT. Яндекс, Сбер, X5, Т-Банк и Lamoda 12 сентября в Москве откроют двери своих офисов для тех, кто любит технологии.

Присоединяйтесь, чтобы увидеть новые разработки, обменяться экспертизой, найти единомышленников и просто хорошо провести время. В программе — доклады, экскурсии-погружения, лаборатория софт-скилов, роботы, гик-вечеринка и многое другое.

Всего будет 5 треков докладов, каждый привязан к конкретной площадке:

🔵 Next-Gen Development — офис Яндекса
🔵 Мультиагентные системы в продукте и бизнес-процессах — офис Сбера
🔵 Архитектура и управление сложными системами — офис X5
🔵 AI для SDLC: от кода до прода — офис Т-Банка
🔵 Создание инфраструктуры для разработки и управление ей — офис Lamoda

Как зарегистрироваться:

Зайти на этот сайт
Выбрать 3 локации, которые вы хотите посетить за ночь

Но помните, что первая локация — ключевая. Начать обязательно нужно будет с неё. Здесь вы получите велком-пак big tech night с бейджем и браслетом участника. Он позволит пройти на остальные площадки. Второй и третий офисы можно будет поменять местами, если потребуется.

💻 А ещё можно подключиться онлайн, если вы не в столице.

💠 Будем ждать вас в офисе Яндекса!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1
Базовая база: продолжаем вспоминать основы вместе

Ловите задачу по теории игр.

Вы очутились перед игровым автоматом. Сыграть можно только один раз. Цена попытки — 100 рублей.

Если вы всё-таки решите попытать счастья, возможны несколько исходов:

• с вероятностью 5% вы выиграете 2000 рублей,
• с вероятностью 25% — 300 рублей,
• в остальных 70% вы не получите ничего.

Стоит ли играть, если ваша цель — заработать?


💠 Опубликовали правильный ответ с разбором. Но если вы видите задачу в первый раз, поделитесь своим решением в комментариях и попробуйте порешать предыдущие задачки:

🔵 Задача на теорию вероятностей + Разбор
🔵 Задача на теорему Байеса + Разбор

#задачи_для_аналитиков

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓64🔥4👾2👍1
🧑‍💻 Ну что, выиграли в теорию игр?

Проверьте себя: возвращаемся с разбором задачи.

Для решения этой задачи нам понадобится математическое ожидание — среднее значение случайной величины, взвешенное по вероятностям возможных значений. Используем его, чтобы оценить возможный выигрыш при многократном повторении игры.

Для начала вспомним вводные и запишем чистый выигрыш. Учитывая, что стоимость одной попытки — 100 рублей:
• с вероятностью 5% вы выиграете: 2000 − 100 = 1900 рублей
• с вероятностью 25%: 300 − 100 = 200 рублей
• с вероятностью 70%: 0 − 100 = −100 рублей

Средний выигрыш по определению матожидания составит:
M = 0,05 × 1900 + 0,25 × 200 + 0,7 × (−100) = 95 + 50 − 70 = 75 рублей

То есть в среднем — мы в плюсе. Играем!

Однако по условию мы можем сыграть только один раз — и проиграть всё. Так что стоило бы учесть ещё и толерантность к риску… Но в рамках этой задачи мы договаривались вспомнить только основы теории игр 😉


💡 Совет. Математическое ожидание ближе, чем кажется. Даже если вас не просят посчитать матожидание в явном виде, очень может быть, что именно его будет достаточно для решения задачи. Повторяйте базу, однажды она обязательно пригодится!

💠 Какая ваша любимая задача про матожидание? Делитесь в комментариях.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
😁167🐳4🔥3👍2🥱2
👳 Как жить и работать с витринами данных

Привет аналитикам! На связи Павел Беляев, тимлид группы обработки данных в дата-офисе сервиса eLama и автор канала «Тимлидское об аналитике». Основной продукт моей команды — это витрины данных. Уже 7 лет я занимаюсь их разработкой, поддержкой, управлением и так далее.

Сегодня я хочу поделиться своими наблюдениями за их жизнью 🔭 Надеюсь, это поможет вам выстроить работу дата-аналитиков так, чтобы получилось максимально эффективно и продуктивно.

Больше подробностей со ссылками ищите в моём личном канале.

А вот полезные материалы по карточкам:

🔵 Про тестирование витрин подробнее можно прочитать здесь

🔵 А узнать, как у нас организован поиск неактуальных витрин, можно тут

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108😎3🤓1👀1