Делимся списком годных открытых ресурсов от ребят из Школы анализа данных. Подборка пригодится тем, кто только вкатывается в ML или хочет самостоятельно прокачаться в соседней области. Скидывайте пост вашим знакомым джунам — пусть учатся!
Вот ссылки:
А ещё интенсивы:
Из курсов на GitHub посоветуем один про алгоритмы, потому что они вечные и никогда не устареют:
И интересную подборку не от ШАД:
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥14❤🔥5🤓2✍1🆒1
Она понадобится для решения сегодняшней задачи — продолжаем вспоминать базовую теорию на простых примерах. Предыдущую задачу разбирали вот тут. А вот и новая.
В одной компании захотели проверить, знают ли стажёры SQL. 30% стажёров оказались готовы к тесту, остальные — нет. С тестом справились 90% подготовленных стажёров и только 20% неподготовленных.
Если стажёр успешно прошёл тест, какова вероятность, что он был готов к нему?
#задачи_для_аналитиков
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥3👀3🦄2🐳1
А вот и ответ: проверьте себя!
Разобраться, что известно, а что надо найти, — уже половина решения. Введём обозначения:
• P(Готов) = 0,3 — вероятность того, что стажёр был готов к тесту.
• P(Сдал|Готов) = 0,9 — вероятность того, что стажёр справился с тестом и был к нему готов.
• P(Сдал|НеГотов) = 0,2 — вероятность того, что стажёру повезло пройти тест без подготовки.
• P(НеГотов) = 0,7 — вероятность того, что нерадивый стажёр получил заслуженный неуд.
P(Сдал) = 0,3 × 0,9 + 0,7 × 0,2 = 0,27 + 0,14 = 0,41
P(Готов|Сдал) = [P(Сдал|Готов) × P(Готов)] / P(Сдал) = (0,9 × 0,3) / 0,41 ≈ 0,6585 ≈ 65,9%
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤53🔥15❤🔥4🎉2
Это AI Dev Day — первый митап Яндекса на эту тему. Мы обсудим, как ИИ-агенты ускоряют процессы, помогают разработчикам работать с кодом и автоматизировать рутинные задачи.
27 июля ждём аналитиков и разработчиков, которые ищут способы побороть рутину и повысить свою эффективность.
Для этого мы подготовили 2 формата обмена опытом:
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2
Соскучились по интенсивам? Мы — да. Поэтому предлагаем вам с головой погрузиться в А/В-тестирование вместе с экспертом Школы анализа данных. Здесь вы отточите свои знания статистики, поймёте, как проводят А/В-тесты в Яндексе, и получите набор инструментов на Python, которые сразу сможете применить в работе.
Аналитик-разработчик и эксперт Яндекса Диля Хакимова расскажет:
Внимание: спойлеры к интенсиву 🤫
Математические расчёты можно применять уже на этапе планирования для оценки длительности эксперимента. Симуляции же подбирают тот статистический критерий, который подходит именно под вашу бизнес-задачу. В итоге благодаря грамотным статистическим методам банальное «стало лучше/хуже» превращается в глубокий бизнес-анализ и подробную оценку рисков.
Кому пригодится интенсив?
Чему научатся участники?
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤30👍4🔥2🦄2
В Яндекс Доставке мы возим очень разные вещи: от горячих бургеров до новых айфонов. Задача сервиса в том, чтобы быстро найти на каждую посылку подходящего курьера. Но если мы хотим доставлять эффективно, заказы приходится объединять, чтобы можно было отвезти несколько товаров за один присест. А для этого нужна сложная система, которая не допустит, чтобы бургер остыл, пока курьер ездил за айфоном.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤6👍3⚡1
Что удивительно: это не помешало выдерживать рантайм-нагрузку и привело к результату лучше всех ожиданий. Подробности рассказывает Марк Нарусов, ML-разработчик группы рекомендательных сервисов в Лавке.
Зачем вообще нужна кандидатогенерация? Когда речь идёт о миллионах или миллиардах объектов
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥2⚡1🤔1
Привет, это Александр Исаков, руководитель группы прогноза в Яндекс Лавке. Я считаю, что в резюме кандидата должны быть личные проекты: иногда они показывают ваши навыки и умения даже лучше, чем рабочие задачи.
Смело кидайте ссылочку на репозиторий потенциальному работодателю! А если подходящих пет-проектов у вас пока нет, вот несколько занятных идей:
Данные: PubMed MultiLabel Text Classification Dataset MeSH
Бейзлайн: логистическая регрессия
Что делаем:
Как улучшить:
Данные: MovieLens Dataset
Бейзлайн: матричные разложения (Matrix Factorization). Пример кода есть вот тут
Что делаем:
Как улучшить:
разложение, нейросетевые методы работы с рекомендациями.
Данные: CIFAR-10 Dataset (или любой другой с кагглов)
Бейзлайн: любая (желательно самописная) CNN-сеточка
Что делаем:
Как улучшить:
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤6⚡2🥴2👾2👍1🆒1
Вот и прошёл наш первый митап в Санкт-Петербурге — получилось очень душевно. Вы правда крутые, и мы были рады затусить вместе. Надеемся, что вам тоже всё понравилось.
Не получилось прийти на митап? Не беда — специально для вас выложили записи докладов:
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26❤13👍5🦄2🌚1
Хорошие новости! Yandex B2B Tech совсем скоро запустит AI-агента. С ним можно делать всякое полезное: например, создавать сложные графики и дашборды на JavaScript. Ещё он может искать инсайты, делать выводы из таблиц, а также консультировать по документации.
В сентябре Нейроаналитик станет доступен и другим компаниям — в лист ожидания можно записаться уже сейчас.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤4🔥3😭3⚡2
Представим, что вас попросили посчитать влияние обучения на эффективность сотрудников. Вы построили простую линейную регрессию и получили +0,53% к эффективности сотрудника за каждый балл экзамена. Уже готовы нести выводы заказчику? Погодите, вы могли попасть в ловушку конфаундинга!
Конфаундинг — это неприятная ситуация, когда третьи переменные искажают оценку причинной связи. Последствия этого могут быть самыми драматичными. Особенно в больших компаниях, где каждый процент на счету.
Саша Ботвин, руководитель команды HR-аналитики в Яндексе, рассказывает о современном каузальном анализе и конфаундинге. Всё это с опорой на исследования антрополога Ричарда Макэлрита. А ещё Саша показывает:
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥7👍2🐳1👀1
big tech night — «Ночь музеев» в мире IT. Яндекс, Сбер, X5, Т-Банк и Lamoda 12 сентября в Москве откроют двери своих офисов для тех, кто любит технологии.
Присоединяйтесь, чтобы увидеть новые разработки, обменяться экспертизой, найти единомышленников и просто хорошо провести время. В программе — доклады, экскурсии-погружения, лаборатория софт-скилов, роботы, гик-вечеринка и многое другое.
Всего будет 5 треков докладов, каждый привязан к конкретной площадке:
Как зарегистрироваться:
Но помните, что первая локация — ключевая. Начать обязательно нужно будет с неё. Здесь вы получите велком-пак big tech night с бейджем и браслетом участника. Он позволит пройти на остальные площадки. Второй и третий офисы можно будет поменять местами, если потребуется.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1🔥1
Ловите задачу по теории игр.
Вы очутились перед игровым автоматом. Сыграть можно только один раз. Цена попытки — 100 рублей.
Если вы всё-таки решите попытать счастья, возможны несколько исходов:
• с вероятностью 5% вы выиграете 2000 рублей,
• с вероятностью 25% — 300 рублей,
• в остальных 70% вы не получите ничего.
Стоит ли играть, если ваша цель — заработать?
#задачи_для_аналитиков
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓6❤4🔥4👾2👍1
Проверьте себя: возвращаемся с разбором задачи.
Для решения этой задачи нам понадобится математическое ожидание — среднее значение случайной величины, взвешенное по вероятностям возможных значений. Используем его, чтобы оценить возможный выигрыш при многократном повторении игры.
Для начала вспомним вводные и запишем чистый выигрыш. Учитывая, что стоимость одной попытки — 100 рублей:
• с вероятностью 5% вы выиграете: 2000 − 100 = 1900 рублей
• с вероятностью 25%: 300 − 100 = 200 рублей
• с вероятностью 70%: 0 − 100 = −100 рублей
Средний выигрыш по определению матожидания составит:
M = 0,05 × 1900 + 0,25 × 200 + 0,7 × (−100) = 95 + 50 − 70 = 75 рублей
То есть в среднем — мы в плюсе. Играем!
Однако по условию мы можем сыграть только один раз — и проиграть всё. Так что стоило бы учесть ещё и толерантность к риску… Но в рамках этой задачи мы договаривались вспомнить только основы теории игр 😉
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16❤7🐳4🔥3👍2🥱2