karpov.courses – Telegram
karpov.courses
27.5K subscribers
1.64K photos
6 videos
8 files
1.21K links
Школа DATA SCIENCE для любого уровня подготовки. Учим актуальным навыкам с акцентом на практику

Программы: https://to.karpov.courses/Vy4YuQ
Чат по DS и ML: @karpovcourseschat

Регистрация в РКН: https://gosuslugi.ru/snet/67b592291bca1d7fe17570a8
Download Telegram
Искусственный интеллект, нейронные сети, компьютерное зрение... Всё это встречается в обыденной жизни намного чаще, чем мы думаем. Как именно? Смотрим в большом интервью с Валерием Бабушкиным, куратором курса HARD ML, где он простыми словами рассказывает о своей работе в Data Science.
Всем привет! На связи Анатолий Карпов.

Сегодня стартовал 10-й поток программы «Аналитик данных», на которой обучаются уже более 500 студентов.

Каких же аналитиков мы готовим? Когда я пришел работать ВКонтакте, сразу осознал, что на аналитика ложится значительно больший груз ответственности, чем я предполагал. Нужно не только хорошо разбираться в продуктовой аналитике, но и понимать основы ETL-процессов — уметь самостоятельно работать с кодом, планировщиками задач, гитом и базами данных.

Многие могут со мной поспорить, что все это — зона ответственности дата-инженеров и разработчиков, а аналитик должен фокусироваться именно на решении продуктовых задач. Безусловно! Но на практике очень часто аналитики сталкиваются со всем спектром задач анализа данных: от написания скриптов для их загрузки до создания красивых визуализаций.
Цель нашей специализации — подготовить специалистов, которые обладают как всеми необходимыми хард скиллами, так и глубокими знаниями в области продуктовой аналитики, статистики и проведения A/B-тестов. С таким багажом навыков у вас будет гораздо больше потенциальных путей профессионального развития: часть наших выпускников идут по ветке более близкой к выстраиванию ETL-процессов и работе с большими данными, в то время как другие концентрируются на продуктовой аналитике и работе с BI-системами.

Я глубоко убежден, что такой подход позволяет максимально эффективно подготовить наших студентов к работе в индустрии.

До встречи на курсе!
Как легко и просто обмануть искусственный интеллект: берем яблоко и приклеиваем на него бумажку с надписью iPod. Всё! Нейронная сеть решила, что это iPod.

Теперь непосредственно к новости: команда OpenAI, которая сделала GPT-3, выкатила нейронную сеть для распознавания объектов одним из трёх способов: по фото, по образу (рисунку) и по тексту. То есть, имея такую нейронку, можно узнать Анатолия Карпова по его фото, по рисунку с конференции или вообще по бейджику. 

Увы, ничего не бывает идеальным, поэтому яблоко iPod – это способ, способный ввести такую сеть в заблуждение. Тем не менее, новость всё равно классная и крайне рекомендуется к прочтению.
👍1
Если на сегодняшний вечер у вас не было планов, то рады сообщить – теперь есть!

На повестке дня:
● Тренды мира машинного обучения
● Отличия работы в IT в США и России
● Способы борьбы с выгоранием в IT (да, тут тоже можно!)
● Где и чему учиться, чтобы стать крутым ML-специалистом

Всё это, и даже больше – в новом интервью с Дарьей Яковлевой, Data Scientist’ом ВКонтакте
Media is too big
VIEW IN TELEGRAM
Не будем скрывать: составление программы с хардовым и нестандартным материалом далось тяжело. Однако каким бы трудным не был путь, результат определенно того стоит, особенно если это курс по продвинутому машинному обучению.

Начинаем первого апреля, присоединяйтесь по ссылке
Друзья, на этой неделе стартовал уже 10-й (!) поток курса «Аналитик данных» 🙌🏼

Пока те, кто успел записаться, начинают увлекательное путешествие в мир Data Science, давайте разберёмся, чему вообще мы собрались обучать на курсе.

Слово «анализ» происходит от древнегреческого ἀνάλυσις — «разложение» — и означает метод познания через разбиение системы на составные части.

А вот АД в бизнесе — это в первую очередь процесс преобразования данных в полезную информацию, которая позволяет принимать правильные решения. Сегодня мы расскажем про четыре основных типа Business Data Analysis.
👍27
● Denoscriptive

Дескриптивный (описательный) анализ ставит своей целью описать имеющийся набор данных. Скажем, оценить размер выборки, найти максимум или посчитать отклонение. Главное — на основе дескриптивной статистики аналитик не может делать выводы о всей генеральной совокупности.

Допустим, мы располагаем данными о числе посетителей сайта за каждый день 2020 года. Описательного АД достаточно, чтобы, например, построить график средней посещаемости по месяцам. Но чтобы предположить, что будет происходить в 2021 году, уже придётся копать глубже.

● Diagnostic

Диагностическая аналитика направлена на выявление закономерностей в данных. Проще говоря, с её помощью аналитик может определять причины событий.

Например, во время описательного АД вы обнаружили в своей выборке аномалию: число посетителей вашего сайта резко сократилось в ноябре. Диагностические методы позволят разобраться, почему так произошло.

● Predictive

Предиктивный (прогнозный) анализ фокусируется на прогнозировании поведения данных. Обычно это работает так: аналитик выводит тенденции на основе всех прошлых событий и делает прогноз.

Формирование предсказаний — ключевая задача бизнес-аналитики, потому что именно модели будущих событий позволяют оценивать риски и возможности. Предположение о том, как жизнь сайта будет развиваться в следующем году (на основе данных за текущий год) — как раз пример такой задачи.

● Prenoscriptive

Предписывающая аналитика — это обобщение всех выводов, полученных в результате описательного, диагностического и предиктивного исследования. На этом этапе аналитик должен ответить на вопрос «Что делать?» — то есть предложить решение по снижению рисков и реализации возможностей.

Грубо говоря, если на описательном этапе мы обнаружили уменьшение трафика, на диагностическом — выявили его причину, на предиктивном — предсказали дальнейшее развитие проблемы, то теперь наша задача — понять, что нужно изменить, чтобы выйти из этой ситуации.
👍50🔥141
Не так давно закончилась серия постов о преподавателях специализации «Аналитик данных», однако не зря же мы запускали новые программы, верно?:) Сегодня расскажем о преподавателе курса HARD ML и ML-инженера в Яндексе, Игоре Котенкове.

В Data Science Игорь, по собственным словам, попал случайно – постепенное разочарование в быстро ставшей неинтересной учебе в университете привело к осознанию, что нужно что-то делать самостоятельно. Внезапно и очень вовремя он находит серию блог-постов на habr о машинном обучении и Big Data, профильные чаты в телеграме (где, к слову, знакомится с куратором HARD ML, Валерием Бабушкиным) и курсы по ML на Coursera. Так или иначе, было принято волевое, но в то же время авантюрное решение – академический отпуск без планов на возвращение. Основной целью стало желание найти работу, так что спустя чуть больше, чем полгода, Игорь выходит на свою первую должность – в СберТех на позицию разработчика-инженера, откуда уже уходит в X5 в команду Валерия Бабушкина.
👍2
Сейчас Игорь уже почти полтора года занимается машинным обучением в Яндекс.Маркете и ведет модуль «Ранжирование и матчинг» на продвинутом курсе по ML.

О чем этот блок? Лучше всего расскажет сам лектор:

«В блоке рассматриваются основные подходы к задаче ранжирования, которые могут быть применены к широкому спектру задач специалиста, начиная поиском похожих объектов и заканчивая такими необычными задачами, как скоринг траекторий для автопилота. Как частный случай и развитие технологий ранжирования рассмотрим пример ритейла с точки зрения матчинга, то есть автоматического сопоставления товаров, а также поработаем с поиском схожих текстовых последовательностей».
В анонсах новых потоков мы часто упоминаем «боевой кластер», работа с которым делает практику ближе к реальным условиям. Но что это такое? Сейчас расскажем.

Большинство рабочих задач требует немалых ресурсов для проведения вычислений. Например, специально установленные библиотеки с некими зависимостями (для одной библиотеки требуется определенная версия другой библиотеки), на конфигурацию которых нужно время, терпение и техническая подкованность. Также вычисления энергозатратны: для их выполнения требуется большое количество оперативной памяти. Среднестатистический ноутбук с такой подготовкой рискует банально не справиться.

Зато эти проблемы решает вычислительный кластер – удаленный мощный сервер, на котором уже установлены необходимые программы и библиотеки. Он позволяет работать с одними и
теми же данными сразу нескольким людям (например, команде в корпорации) и быстро обмениваться полученными результатами.

Именно на таком кластере занимаются студенты наших курсов. Чем не практика в боевых условиях?:)
Освоить машинное обучение за 6 месяцев? Легко!

Особенно, когда знания обещают быть не только прикладными, но и фундаментальными: Python, математика, статистика, классические ML-алгоритмы и введение в нейронные сети. С таким арсеналом у вас появится необходимая база и возможность выбирать свой путь в Machine Learning согласно тем задачам, которые вы хотите решать. Звучит как хороший план на ближайшие полгода!

10 апреля – новый поток программы START ML

Изучить программу курса и записаться можно по ссылке
Вчера мы анонсировали новый поток START ML, так что самое время проверить свои знания:

Перед нами - традиционный классификационный вопрос аналитика: какие люди щёлкают по нашей рекламе в соцсетях, а какие - нет? При поиске подходящих фичей наши эксперты долго пыхтели, и в итоге выделили пять штук.
Какой из этих методов лучше всего подойдёт для данной задачи?

Примечание: этот метод не обязан быть абсолютно лучшим - лишь относительно.
karpov.courses
Какой метод выберете?
Итак, давайте разбираться, какой из ответов правильный.

Последние два варианта отпадают сразу - ни тот, ни другой формально не созданы для задач классификации. Наиболее важным фактором для выбора из двух оставшихся является сложность модели. На пяти фичах нейросеть с гораздо большей вероятностью переобучится, чем более неприхотливая логистическая регрессия.

Безусловно, в этой задаче не указано много деталей. Выбор подходящего классификатора - в том числе из тех, которые не указаны в нашем опросе - всегда определяется тонкими деталями поведения наших данных и строгой валидацией эффективности моделей. На курсе START ML мы можем научить вас это делать!
Неделю назад мы решили приоткрыть для вас завесу в мир Business Data Analysis и посвятили целый пост четырём этапам АД для бизнеса.

Сегодня предлагаем продвинуться чуть дальше и поговорить о пяти вещах, которые делает каждый (хороший) аналитик в рамках любого своего проекта
🔥9👍2
1. Определение задач

Когда мы занимаемся аналитикой для бизнеса, перед нами чаще всего встают конкретные прикладные задачи: найти причину события, предсказать поведение потребителя, предложить компании план действий.

Например, нам нужно оценить успех последнего обновления мобильного приложения. Что вообще такое «успех»? В чём он измеряется? По каким метрикам его считать? Важно ещё до начала работы понять, какова наша конечная цель и на какие вопросы придётся ответить, чтобы к ней прийти.

2. Сбор данных

Мы определились с вопросами — теперь нужно разобраться, в каких данных содержатся ответы на них. Бывает, что вся необходимая информация сразу есть у аналитика на руках. А бывает, что нужно придумать, откуда и как её выгрузить.

Иногда приходится и буквально «собирать» данные: скажем, проводить серию опросов. Здесь главное — помнить о репрезентативности выборки.

3. Предобработка

Во-первых, все наши csv-, xls- и txt-файлы с бесконечными разношёрстными таблицами нужно собрать в единую систему внутри среды, в которой мы собираемся работать. Скажем, в датафреймы Pandas.

Во-вторых, нужно провести очистку: избавиться от выбросов, шумов и дубликатов, с помощью специальных инструментов обработать пропущенные значения.

В информатике есть такой известный принцип: «Garbage In, Garbage Out» — некачественные входные данные дают некорректный результат, даже если алгоритм работает идеально. Для бизнес-аналитики это всегда связано с потенциальными убытками.

В-третьих, нужно оптимизировать датафреймы: отфильтровать лишние параметры, агрегировать схожие признаки, упорядочить объекты.

При АД мы обычно имеем дело с множеством разных числовых признаков, которые могут различаться по значениям на порядок. Например, средний расход топлива на 100 км в литрах и вес автомобиля в килограммах. Поэтому часто требуется нормализация данных — приведение всех числовых признаков к одному диапазону значений (как правило — от 0 до 1).

4. Анализ

О том, какие задачи решает АД, мы рассказывали в первой части «Введения в дата-аналитику» (ищите пост по тегу) — среди них можно выделить три большие группы:

● описание имеющихся данных;
● построение моделей и поиск связей;
● формирование прогнозов на будущее.

Здесь в игру вступают дашборды, статистические гипотезы, корреляции и другие методы и средства бизнес-аналитики. Именно тому, как с ними работать, мы и учим на своих курсах 🙂

5. Интерпретация

Last but not least: остаётся понять, как результаты анализа отвечают на ваши вопросы из первого пункта, сформулировать эффективное бизнес-решение и грамотно презентовать свои мысли заказчику.
👍219🔥2
Давно у нас не было открытых лекций!

Что ж, давайте исправлять ситуацию: в этот четверг Валерий Бабушкин (Facebook, ex Alibaba, X5, Yandex), куратор программы HARD ML, проведёт бесплатный вебинар о вероятностной калибровке на примере Probability Calibration Trees.

Получение точных и откалиброванных оценок вероятности для предсказания каждого класса – крайне полезный и важный навык, например, при минимизации ожидаемых затрат. Прогнозирование вероятностей позволяет корректно принимать решения, используя вероятностный подход, представлять прогнозы с неопределенностью и оценивать качество модели. На вебинаре мы вместе:

● Рассмотрим, что такое вероятностная калибровка и где её использовать
● Научимся применять Probability Calibration Trees
● Разберёмся, почему этот метод приводит к лучшим результатам, чем Platt-масштабирование и изотоническая регрессия

Четверг, 1 апреля, 20:00

Записаться на вебинар
👍1
Всем привет! На связи Анатолий Карпов.

В далеком 2015 году я читал курс по основам статистики для студентов Института биоинформатики – получалось неплохо, студентам нравилось, и команда Института предложила записать его онлайн-версию. Кто ж знал, что спустя 6 лет на «Основах статистики» будет обучаться 150 тысяч человек! Отчасти, с этой записи начала зарождаться идея создания karpovꓸcourses, так что если вдруг хотели повторить основы математической статистики – открытый курс ждет новых слушателей:)
2👍2
Быть в курсе основных трендов в сфере анализа данных, важно как для начинающих специалистов, так и для профессионалов. Например, посещать конференции: на следующей неделе как раз пройдет онлайн-конференция по продуктовой аналитике Aha!'21, которую организует Алексей Никушин.

Организаторы собрали крутую программу:

20%про монетизацию: из каких шагов состоит оптимальная воронка активации, как определить шаги (моменты) воронки, применение фреймворка от Reforge на практике и др.
20%технологический стек: от работы с Power BI и Amplitude до Яндекс.Облака и Exasol.
20%эксперименты: оценке долгосрочных эффектов после проведения эксперимента, этапам эволюции in-house системы экспериментов в любой компании, проверке качества систем сплитования трафика и так далее.
– Много внимания уделено системам автоматического поиска инсайтов в данных, поиску, анализу и автоматизации процесса обнаружения аномалий, как находить инсайты по оптимизации монетизации. После этого, подходы к определению product market fit и обнаружению aha-моментов. Организаторам удалось согласовать Q&A-сессию с вице-президентом Sequoia Capital – самым успешным венчурным фондом в мире, – они то уж точно знают что к чему в деньгах и продуктах + еще десяток тем и дискуссий.

Подробную программу конференции рекомендуем читать здесь, а по промокоду LASTCALL вы получите скидку 10% 🔥

К слову, все материалы — видео, презентации, мастер-классы, доступы в чаты – бессрочно доступны участникам в записи сразу после трансляции. Вещание студийного качества в формате FullHD, с возможностью поставить прямой эфир на паузу и потом ускорить. Если вы пропустили что-то в прямом эфире — не страшно! Вопросы к спикерам собираются в течение 1,5-2 недель и потом проводится общий Q&A Zoom со спикерами.

Еще сомневаетесь? Тогда посмотрите доклад Анатолия Карпова с Матемаркетинга-2020 о важности продуктовой аналитики в мире анализа данных:)
Первого апреля принято друг друга разыгрывать, но мы решили быть максимально серьезными (потому что с Валерием Бабушкиным шутки плохи).

Сегодня стартует новый поток программы HARD ML. На курсе вас ждут 6 месяцев полного погружения в работу ML-инженера, организация библиотеки факторов, знакомство с многорукими бандитами и новейшими подходами в хардкорном A/B тестировании – и это лишь малая часть программы продвинутого курса.

Найти полную программу и залететь в уже стартовавший поток можно по ссылке.

А еще обязательно забегайте на сегодняшний вебинар на нашем YouTube-канале в 20:00. Валерий Бабушкин будет рассказывать о вероятностной калибровке на примере Probability Calibration Trees, а наша саппорт-команда постарается ответить на все вопросы в чате:)