Предиктивный LTV это как секс: многие о нем говорят, но мало кто практикует 🍓
В сегодняшнем материале — строим предиктивный LTV 🚀, используя простую линейную регрессию и степенную функцию, на данных реального игрового проекта.
В сегодняшнем материале — строим предиктивный LTV 🚀, используя простую линейную регрессию и степенную функцию, на данных реального игрового проекта.
LEFT JOIN
Моделирование LTV в SQL
У большинства игровых и мобильных компаний имеется кривая Retention, ранее мы писали о том, что такое Retention и как его посчитать. Вкратце – это метрика, которая позволяет понять насколько хорошо продукт вовлекает пользователей в ежедневное использование.…
Кстати, я не так часто рассказываю об успехах нашей компании, но в будущем планирую публиковать больше контента про это.
Прямо сейчас мы в поисках менеджера проектов 🏗👨💼, если эта роль кому-то из подписчиков актуальна, пишите мне напрямую @valiotti.
Есть и другие открытые позиции, а сценарий взаимодействия аналогичный.
#вакансия
Прямо сейчас мы в поисках менеджера проектов 🏗👨💼, если эта роль кому-то из подписчиков актуальна, пишите мне напрямую @valiotti.
Есть и другие открытые позиции, а сценарий взаимодействия аналогичный.
#вакансия
spb.hh.ru
Вакансия Менеджер проектов в Санкт-Петербурге, работа в компании Valiotti Analytics (вакансия в архиве c 25 августа 2021)
Зарплата: не указана. Санкт-Петербург. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 26.07.2021.
🎓 Курс CSE 6040 🐍
Как я и писал ранее, о курсе остались только положительные впечатления. Расскажу о структуре курса и о том, как формируется итоговый балл.
В целом, курс очень интенсивный (возможно, это связано с тем, что я взял его в летний семестр, а у американцев он довольно сжатый во времени), каждую неделю надо делать по 1-2 обширных домашних задания (требующих немало усилий).
Курс построен следующим образом: под каждую тему опубликовано 5-6 вводных видео, которые погружают в тему, а весь остальной контент упакован в Jupyter ноутбуки, в рамках которых объясняется теория и размещены практические упражнения. Причем на одно домашнее задание может быть до 4-5 ноутбуков, что, конечно, отнимает значительно времени, если делать задания без пропусков и вдумчиво.
Надо заметить, что на портале OMSCentral (где сами студенты публикуют открыто свой фидбек на курс), курс находится в топе по средней оценке. Оценка по загрузке примерно совпадает с тем, что есть по факту: действительно, требуется около 10 часов в неделю.
Структура курса (индексация начинается с нуля, так как курс в некоторой степени программистский):
Модуль 0. Тема 0. Интро и пример ноутбука, который впоследствии должен быть выполнен
Модуль 0. Тема 1. Примеры на Python: ноутбук с базовыми упражнениями на переменные, циклы и вот это все в Python
Модуль 0. Тема 2. Ассоциативные правила. Первый большой блок с теориями и аж 12 видео по теме.
В деталях разбирается математика, лежащая в основе ассоциативных правил: условные вероятности, расчет confidence.
Помимо этого погружение в множества в python, создание defaultdict
Модуль 0. Тема 3. Задачи на линейную алгебру. Как раз данный топик ссылается на интерактивный учебник по линейной алгебре, про который я рассказывал ранее.
Этот ноутбук для собственной практики и без оценки. Довольно много визуальных примеров и объяснения в деталях, что такое вектор (и их геометрическое представление), матрицы и т.д.
Модуль 0. Тема 4. Работа с числами в Python. Топик о том, как хранятся числа, что происходит при изменении с типа данных int на float и обратно, про точность и округления.
Достаточно много технической практики, перевод чисел из одной базы в другую (к примеру, из двоичной в шестнадцатиричную). К решению предлагается два ноутбука с оценкой.
Модуль 1. Тема 5. Препроцессинг неструктурированного текста. Regex, отсюда же ссылочки, которые я выше публиковал на regexone. Много практики на регулярные выражения в Python. 3 ноутбука с оценкой
Модуль 1. Тема 6. Майнинг веб-данных, ноутбук без оценки. Основы работы с requests, beautifulsoup, работа с web api. Три ноутбука для решения.
Practice Midterm 1. Полезно заметить, что перед самим Midterm есть возможность пройти, так называемые, Practice Midterms, это работы предыдущих лет. Есть крайне интересные экземпляры в виде кейсов и алгоритмов (как-нибудь постараюсь рассказать и про них).
Midterm 1. Большой экзамен на обработку данных с использованием циклов, работой со словарями, множествами, созданием алгоритмов. Лимит на 4 часа. Честно говоря, рассчитывал, что пройду за час-полтора, но задания оказались сложными, нужно было изобрести ряд алгоритмов, которые будут работать эффективно, поэтому истратил все 4 часа.
Всего в задании было 16 баллов, из которых отсечка в 12 — это 100%, набрал 14. Сильно попотел конкретно над этим экзаменом, да и это был первый опыт для столь длинного экзамена не в формате теста.
Модуль 1. Тема 7. Очистка данных. Тема посвящена Pandas, включая работу с Series / DataFrame, индексами, группировками, слайсами, ранжированием, лямбда-функциями. Ноутбук в двух частях с оценкой.
Модуль 1. Тема 8. Визуализация данных. Использование bokeh и seaborn для построения графиков. Ноутбук без оценки, поскольку для визуализации автогрейдер не работает.
Модуль 1. Тема 9. Реляционная модель данных. В основном про SQL, довольно базовое представление: DROP, CREATE, JOIN, аггрегации. Использование SQLite в ноутбуках. Два ноутбука с заданиями.
Как я и писал ранее, о курсе остались только положительные впечатления. Расскажу о структуре курса и о том, как формируется итоговый балл.
В целом, курс очень интенсивный (возможно, это связано с тем, что я взял его в летний семестр, а у американцев он довольно сжатый во времени), каждую неделю надо делать по 1-2 обширных домашних задания (требующих немало усилий).
Курс построен следующим образом: под каждую тему опубликовано 5-6 вводных видео, которые погружают в тему, а весь остальной контент упакован в Jupyter ноутбуки, в рамках которых объясняется теория и размещены практические упражнения. Причем на одно домашнее задание может быть до 4-5 ноутбуков, что, конечно, отнимает значительно времени, если делать задания без пропусков и вдумчиво.
Надо заметить, что на портале OMSCentral (где сами студенты публикуют открыто свой фидбек на курс), курс находится в топе по средней оценке. Оценка по загрузке примерно совпадает с тем, что есть по факту: действительно, требуется около 10 часов в неделю.
Структура курса (индексация начинается с нуля, так как курс в некоторой степени программистский):
Модуль 0. Тема 0. Интро и пример ноутбука, который впоследствии должен быть выполнен
Модуль 0. Тема 1. Примеры на Python: ноутбук с базовыми упражнениями на переменные, циклы и вот это все в Python
Модуль 0. Тема 2. Ассоциативные правила. Первый большой блок с теориями и аж 12 видео по теме.
В деталях разбирается математика, лежащая в основе ассоциативных правил: условные вероятности, расчет confidence.
Помимо этого погружение в множества в python, создание defaultdict
Модуль 0. Тема 3. Задачи на линейную алгебру. Как раз данный топик ссылается на интерактивный учебник по линейной алгебре, про который я рассказывал ранее.
Этот ноутбук для собственной практики и без оценки. Довольно много визуальных примеров и объяснения в деталях, что такое вектор (и их геометрическое представление), матрицы и т.д.
Модуль 0. Тема 4. Работа с числами в Python. Топик о том, как хранятся числа, что происходит при изменении с типа данных int на float и обратно, про точность и округления.
Достаточно много технической практики, перевод чисел из одной базы в другую (к примеру, из двоичной в шестнадцатиричную). К решению предлагается два ноутбука с оценкой.
Модуль 1. Тема 5. Препроцессинг неструктурированного текста. Regex, отсюда же ссылочки, которые я выше публиковал на regexone. Много практики на регулярные выражения в Python. 3 ноутбука с оценкой
Модуль 1. Тема 6. Майнинг веб-данных, ноутбук без оценки. Основы работы с requests, beautifulsoup, работа с web api. Три ноутбука для решения.
Practice Midterm 1. Полезно заметить, что перед самим Midterm есть возможность пройти, так называемые, Practice Midterms, это работы предыдущих лет. Есть крайне интересные экземпляры в виде кейсов и алгоритмов (как-нибудь постараюсь рассказать и про них).
Midterm 1. Большой экзамен на обработку данных с использованием циклов, работой со словарями, множествами, созданием алгоритмов. Лимит на 4 часа. Честно говоря, рассчитывал, что пройду за час-полтора, но задания оказались сложными, нужно было изобрести ряд алгоритмов, которые будут работать эффективно, поэтому истратил все 4 часа.
Всего в задании было 16 баллов, из которых отсечка в 12 — это 100%, набрал 14. Сильно попотел конкретно над этим экзаменом, да и это был первый опыт для столь длинного экзамена не в формате теста.
Модуль 1. Тема 7. Очистка данных. Тема посвящена Pandas, включая работу с Series / DataFrame, индексами, группировками, слайсами, ранжированием, лямбда-функциями. Ноутбук в двух частях с оценкой.
Модуль 1. Тема 8. Визуализация данных. Использование bokeh и seaborn для построения графиков. Ноутбук без оценки, поскольку для визуализации автогрейдер не работает.
Модуль 1. Тема 9. Реляционная модель данных. В основном про SQL, довольно базовое представление: DROP, CREATE, JOIN, аггрегации. Использование SQLite в ноутбуках. Два ноутбука с заданиями.
cse6040.gatech.edu
CSE 6040 @ GT, Fall 2018
This course is an introduction to programming for data analysis.
👍1
Модуль 2. Тема 10. Вычисления с использованием numpy / scipy. Введение в numpy, работа с матрицами, матричные вычисления. Плотное (dense) и разреженное (sparse) хранение матриц, сжатое разреженное хранение и координатное хранение, куча кода и алгоритмов, четыре ноутбука для решения.
Модуль 2. Тема 11. Ранжирование объектов. Цепи Маркова. Наверное, самая офигенная тема из всего курса. Практическая задача по поиску наиболее важного аэропорта в США, который влияет на всю цепочку авиа-перевозок.
Practice Midterm 2. Тут также есть ряд супер-интересных кейсов для практики. На примере последней темы (pagerank), прогноз численности населения в 2046 году в зависимости от миграций людей в штатах.
Midterm 2. Данный экзамен дался мне существенно легче чем предыдущий, наобходимо было прилично поработать с pandas, сводными таблицами, groupby, на экзамен ушло у меня примерно полтора часа из четырех.
Последний блок предлагаемых тем в курсе в большей степени про конкретные алгоритмы, которые используют чаще всего во всех ввводных курсах (101) по машинному обучению, и, честно говоря, я переживал, что тут будет тоже самое: берем такую-то библиотеку, строим модель, оцениваем R² и так далее. Однако, все совершенно иначе, курс построен по принципу изучения алгоритма, лежащего в основе каждой модели, поэтому ноутбуки в бОльшей степени посвящены, например, пониманию метода наименьших квадратов и их реализации в Python, ничего даже близкого к использованию штатных библиотек. Разумеется, они приводятся в конце для сравнения полученого результата.
Модуль 2. Тема 12. Линейная регрессия. Выше базово уже описал, но тут примечателен тот пример про LSD, про который уже рассказывал, он как раз используется как пример для базовой модели линейной регрессии. ДЗ — решение ноутбука в четырех частях.
Модуль 2. Тема 13. Классификация (логистическая регрессия). Подробное погружение в классификацию, описание алгоритма для решения задачи. Ноутбук в качестве домашнего задания.
Модуль 2. Тема 14. Кластеризация с использованием k-средних. Ручное постепенное построение алгоритма k-средних, алгоритм довольно несложный, поэтому все решается внутри небольшого ноутбука.
Модуль 2. Тема 15. Компрессия данных c использованием PCA. Довольно подробное погружение в SVD, собственные числа, матричные вычисления. На данном ноутбуке уже было ощущение, что глубокой математики достаточно :)) Но тут как раз и курс подошел к концу.
Practice Problems for Final Exam. Опять же есть ряд супер-интересных задач на анализ текста песен и кластеризации текстов с использованием DBScan.
Final Exam. А этот экзамен снова оказался трудным, нужно было охватить материалы из всего курса, написать несколько алгоритмов и решить ряд проблем, в итоге истратил 4 часа, получил 16 из 18 баллов, проходной был 12, чтобы получить 100%.
Итого в курсе решил все задания на 100% из 100%, включая экзамены, заслуженно получил свою первую А. Классно, когда предмет дается интересно и ощущаешь пользу от полученных знаний.
#gatech #omsa #учеба
Модуль 2. Тема 11. Ранжирование объектов. Цепи Маркова. Наверное, самая офигенная тема из всего курса. Практическая задача по поиску наиболее важного аэропорта в США, который влияет на всю цепочку авиа-перевозок.
Practice Midterm 2. Тут также есть ряд супер-интересных кейсов для практики. На примере последней темы (pagerank), прогноз численности населения в 2046 году в зависимости от миграций людей в штатах.
Midterm 2. Данный экзамен дался мне существенно легче чем предыдущий, наобходимо было прилично поработать с pandas, сводными таблицами, groupby, на экзамен ушло у меня примерно полтора часа из четырех.
Последний блок предлагаемых тем в курсе в большей степени про конкретные алгоритмы, которые используют чаще всего во всех ввводных курсах (101) по машинному обучению, и, честно говоря, я переживал, что тут будет тоже самое: берем такую-то библиотеку, строим модель, оцениваем R² и так далее. Однако, все совершенно иначе, курс построен по принципу изучения алгоритма, лежащего в основе каждой модели, поэтому ноутбуки в бОльшей степени посвящены, например, пониманию метода наименьших квадратов и их реализации в Python, ничего даже близкого к использованию штатных библиотек. Разумеется, они приводятся в конце для сравнения полученого результата.
Модуль 2. Тема 12. Линейная регрессия. Выше базово уже описал, но тут примечателен тот пример про LSD, про который уже рассказывал, он как раз используется как пример для базовой модели линейной регрессии. ДЗ — решение ноутбука в четырех частях.
Модуль 2. Тема 13. Классификация (логистическая регрессия). Подробное погружение в классификацию, описание алгоритма для решения задачи. Ноутбук в качестве домашнего задания.
Модуль 2. Тема 14. Кластеризация с использованием k-средних. Ручное постепенное построение алгоритма k-средних, алгоритм довольно несложный, поэтому все решается внутри небольшого ноутбука.
Модуль 2. Тема 15. Компрессия данных c использованием PCA. Довольно подробное погружение в SVD, собственные числа, матричные вычисления. На данном ноутбуке уже было ощущение, что глубокой математики достаточно :)) Но тут как раз и курс подошел к концу.
Practice Problems for Final Exam. Опять же есть ряд супер-интересных задач на анализ текста песен и кластеризации текстов с использованием DBScan.
Final Exam. А этот экзамен снова оказался трудным, нужно было охватить материалы из всего курса, написать несколько алгоритмов и решить ряд проблем, в итоге истратил 4 часа, получил 16 из 18 баллов, проходной был 12, чтобы получить 100%.
Итого в курсе решил все задания на 100% из 100%, включая экзамены, заслуженно получил свою первую А. Классно, когда предмет дается интересно и ощущаешь пользу от полученных знаний.
#gatech #omsa #учеба
Telegram
LEFT JOIN
Из учебного: в этом семестре взял курс CSE 6040, который про алгоритмы анализа данных на Python, курс очень круто подготовлен, обязательно поделюсь более детально.
Иногда просто потрясают датасеты и кейсы внутри. Вот, например, один из них для построения…
Иногда просто потрясают датасеты и кейсы внутри. Вот, например, один из них для построения…
Forwarded from Reveal the Data
Год назад мы с Колей Валиотти сделали дашбород по рынку вакансий аналитиков. 🎉 Подводим итоги за год! Сделали это в виде карточек по разным направлениям аналитики — пощёлкайте и сравните разные профессии.
А ещё, подобрали ТГ каналы, чтобы качаться в каждой из областей:
— Про BI и Табло — Reveal The Data =)
— Про аналитику и DS — Left Join
— Про системный анализ — BA|SA
— Про DE — Инжиниринг данных
— Про маркетинг — Матемаркетинг
— Про Web — WebAnalytics
🔗 Карточки на Табло Паблик
🔗 Основной дашборд
Disclaimer: данные по вакансиям с HH для Москвы и Питера. Профессии определяются по наличию ключевых слов в названии вакансии (есть BI → BI-аналитик, есть ML → Data Scientist и т.п.). Больше всего вакансий в разделе просто «аналитик» и «бизнес-аналитик», так как под ними часто понимают разные обязанности. Зарплаты указаны как средние и чистыми. Кажется, что можно умножать на ×1.2-1.4 и будет примерно рынок.
#пример #ссылка
А ещё, подобрали ТГ каналы, чтобы качаться в каждой из областей:
— Про BI и Табло — Reveal The Data =)
— Про аналитику и DS — Left Join
— Про системный анализ — BA|SA
— Про DE — Инжиниринг данных
— Про маркетинг — Матемаркетинг
— Про Web — WebAnalytics
🔗 Карточки на Табло Паблик
🔗 Основной дашборд
Disclaimer: данные по вакансиям с HH для Москвы и Питера. Профессии определяются по наличию ключевых слов в названии вакансии (есть BI → BI-аналитик, есть ML → Data Scientist и т.п.). Больше всего вакансий в разделе просто «аналитик» и «бизнес-аналитик», так как под ними часто понимают разные обязанности. Зарплаты указаны как средние и чистыми. Кажется, что можно умножать на ×1.2-1.4 и будет примерно рынок.
#пример #ссылка
И немного инсайтов по карточкам выше
Data / Product аналитик:
Data Scientist:
Data / Product аналитик:
▪ количество вакансий несколько подросло, если сравнивать с зимой прошлого года и сейчас составляет около 350-450 открытых позиций;▪ процент удаленных позиций стабилен на уровне 18-20% ▪ в динамике зарплаты с трудом можно увидеть инфляцию, уровень средней зп (это арифметическое среднее) колеблется на отметке 124-130К ₽. При этом распределение зарплат явно не выглядит нормальным, в целом, можно найти зарплату по специальности почти на любой вкус в рамках разумного, но и не в рамках разумного есть выбросы в размере 3% и 250К ₽ "на руки".Data Scientist:
▪ объем количество вакансий несколько меньше, чем по специальности дата аналитика и составляет 250-280 позиций ежемесячно▪ процент удаленных вакансий и его динамика крайне похожа на предыдущую специальность▪ а вот динамика зарплаты выглядит интереснее. Специалисты Data Science явно оцениваются выше и средний уровень ЗП составляет 172К ₽, при этом распределение зарплат явно в более "крупную" сторону и устремлено к 200К ₽. Динамика зарплат колеблется на уровне 165-180К ₽ однако разброс в уровне зарплат достаточно обширный, что отличает данную позицию от предыдущейСреди каналов по анализу данных, которые я читаю, есть также и каналы по дата журналистике, которые как мне кажется интересны широкой аудитории поскольку умеют представить данные правильно. Авторы канала data.csv как раз собирают такие примеры использования данных — интересную инфографику и захватывающие истории, которые публикуют СМИ.
На канале можно найти работы лучших дата-журналистов со всего мира и самые интересные истории из России.
Подписаться на канал можно по ссылке: https://news.1rj.ru/str/data_csv.
На канале можно найти работы лучших дата-журналистов со всего мира и самые интересные истории из России.
Подписаться на канал можно по ссылке: https://news.1rj.ru/str/data_csv.
Новинка на гитхабе — библиотека SQLModel для Python, которая упрощает взаимодействие с SQL базами данных.
GitHub
GitHub - fastapi/sqlmodel: SQL databases in Python, designed for simplicity, compatibility, and robustness.
SQL databases in Python, designed for simplicity, compatibility, and robustness. - fastapi/sqlmodel
Интересная статья о том, как Discord (это мессенджер, популярный в игровой индустрии, который недавно был оценен в $15 млрд) менял MongoDB на Cassandra.
В статье — критерии, по которым выбиралась база данных и некоторые впечатления о том, как данные моделируются в Cassandra.
#link
В статье — критерии, по которым выбиралась база данных и некоторые впечатления о том, как данные моделируются в Cassandra.
#link
Discord
Discord Blog
Discover the latest news and app updates, stories, company insights, and plenty more about Discord, all in one place.
🎓 Курс MGT-6203 🎓
Честно говоря, данный курс был плохо организован, я был им дико не доволен. Ну, и отзывы на OMSCentral это подтверждают.
В начале курса мы заново проходили линейную регрессию в R (спрашивается для чего, если она уже была в курсе ISYE-6501), затем логистическую регрессию, затем изучали стандартное отклонение и ряд других самых базовых величин из финансовых вычислений (return, compound return), после этого погружались в метрики маркетинга (очень широко и несколько остало от действительности), в конце концов завершили курс управлением очередьми, оптимизацией процессов с использованием статистических критериев.
В курсе три домашних работы с вычислениями на R и два экзамена. Каждый экзамен состоит из теста на время и решения задачек без лимита на время.
Кстати, пока я писал посты про эти два курса начался осенний семестр. И у меня появилась идея о том, чтобы заснять серию видео для Youtube канала (вы же уже подписались?) о поступлении в ВУЗ (какие документы были нужны), о внутренних системах для студента Georgia Tech, о первых трех предметах и о последующих.
Ниже голосование, будет ли интересно вам узнать об этом?
#gatech #omsa
Честно говоря, данный курс был плохо организован, я был им дико не доволен. Ну, и отзывы на OMSCentral это подтверждают.
В начале курса мы заново проходили линейную регрессию в R (спрашивается для чего, если она уже была в курсе ISYE-6501), затем логистическую регрессию, затем изучали стандартное отклонение и ряд других самых базовых величин из финансовых вычислений (return, compound return), после этого погружались в метрики маркетинга (очень широко и несколько остало от действительности), в конце концов завершили курс управлением очередьми, оптимизацией процессов с использованием статистических критериев.
В курсе три домашних работы с вычислениями на R и два экзамена. Каждый экзамен состоит из теста на время и решения задачек без лимита на время.
Кстати, пока я писал посты про эти два курса начался осенний семестр. И у меня появилась идея о том, чтобы заснять серию видео для Youtube канала (вы же уже подписались?) о поступлении в ВУЗ (какие документы были нужны), о внутренних системах для студента Georgia Tech, о первых трех предметах и о последующих.
Ниже голосование, будет ли интересно вам узнать об этом?
#gatech #omsa
Telegram
LEFT JOIN
ISYE 6501: Intro to Analytics Modeling
Сегодня расскажу немного о первом вводном курсе ISYE6501. Сначала пойдут мои общие эмоции относительно курса, а затем опишу структура контента.
В целом, курс мне скорее понравился, чем не понравился, но график прохождения…
Сегодня расскажу немного о первом вводном курсе ISYE6501. Сначала пойдут мои общие эмоции относительно курса, а затем опишу структура контента.
В целом, курс мне скорее понравился, чем не понравился, но график прохождения…