LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Предиктивный LTV это как секс: многие о нем говорят, но мало кто практикует 🍓

В сегодняшнем материале — строим предиктивный LTV 🚀, используя простую линейную регрессию и степенную функцию, на данных реального игрового проекта.
Кстати, я не так часто рассказываю об успехах нашей компании, но в будущем планирую публиковать больше контента про это.

Прямо сейчас мы в поисках менеджера проектов 🏗👨‍💼, если эта роль кому-то из подписчиков актуальна, пишите мне напрямую @valiotti.

Есть и другие открытые позиции, а сценарий взаимодействия аналогичный.

#вакансия
🎓 Курс CSE 6040 🐍

Как я и писал ранее, о курсе остались только положительные впечатления. Расскажу о структуре курса и о том, как формируется итоговый балл.
В целом, курс очень интенсивный (возможно, это связано с тем, что я взял его в летний семестр, а у американцев он довольно сжатый во времени), каждую неделю надо делать по 1-2 обширных домашних задания (требующих немало усилий).

Курс построен следующим образом: под каждую тему опубликовано 5-6 вводных видео, которые погружают в тему, а весь остальной контент упакован в Jupyter ноутбуки, в рамках которых объясняется теория и размещены практические упражнения. Причем на одно домашнее задание может быть до 4-5 ноутбуков, что, конечно, отнимает значительно времени, если делать задания без пропусков и вдумчиво.

Надо заметить, что на портале OMSCentral (где сами студенты публикуют открыто свой фидбек на курс), курс находится в топе по средней оценке. Оценка по загрузке примерно совпадает с тем, что есть по факту: действительно, требуется около 10 часов в неделю.

Структура курса (индексация начинается с нуля, так как курс в некоторой степени программистский):
Модуль 0. Тема 0. Интро и пример ноутбука, который впоследствии должен быть выполнен
Модуль 0. Тема 1. Примеры на Python: ноутбук с базовыми упражнениями на переменные, циклы и вот это все в Python
Модуль 0. Тема 2. Ассоциативные правила. Первый большой блок с теориями и аж 12 видео по теме.
В деталях разбирается математика, лежащая в основе ассоциативных правил: условные вероятности, расчет confidence.
Помимо этого погружение в множества в python, создание defaultdict
Модуль 0. Тема 3. Задачи на линейную алгебру. Как раз данный топик ссылается на интерактивный учебник по линейной алгебре, про который я рассказывал ранее.
Этот ноутбук для собственной практики и без оценки. Довольно много визуальных примеров и объяснения в деталях, что такое вектор (и их геометрическое представление), матрицы и т.д.
Модуль 0. Тема 4. Работа с числами в Python. Топик о том, как хранятся числа, что происходит при изменении с типа данных int на float и обратно, про точность и округления.
Достаточно много технической практики, перевод чисел из одной базы в другую (к примеру, из двоичной в шестнадцатиричную). К решению предлагается два ноутбука с оценкой.
Модуль 1. Тема 5. Препроцессинг неструктурированного текста. Regex, отсюда же ссылочки, которые я выше публиковал на regexone. Много практики на регулярные выражения в Python. 3 ноутбука с оценкой
Модуль 1. Тема 6. Майнинг веб-данных, ноутбук без оценки. Основы работы с requests, beautifulsoup, работа с web api. Три ноутбука для решения.

Practice Midterm 1. Полезно заметить, что перед самим Midterm есть возможность пройти, так называемые, Practice Midterms, это работы предыдущих лет. Есть крайне интересные экземпляры в виде кейсов и алгоритмов (как-нибудь постараюсь рассказать и про них).
Midterm 1. Большой экзамен на обработку данных с использованием циклов, работой со словарями, множествами, созданием алгоритмов. Лимит на 4 часа. Честно говоря, рассчитывал, что пройду за час-полтора, но задания оказались сложными, нужно было изобрести ряд алгоритмов, которые будут работать эффективно, поэтому истратил все 4 часа.
Всего в задании было 16 баллов, из которых отсечка в 12 — это 100%, набрал 14. Сильно попотел конкретно над этим экзаменом, да и это был первый опыт для столь длинного экзамена не в формате теста.

Модуль 1. Тема 7. Очистка данных. Тема посвящена Pandas, включая работу с Series / DataFrame, индексами, группировками, слайсами, ранжированием, лямбда-функциями. Ноутбук в двух частях с оценкой.
Модуль 1. Тема 8. Визуализация данных. Использование bokeh и seaborn для построения графиков. Ноутбук без оценки, поскольку для визуализации автогрейдер не работает.
Модуль 1. Тема 9.
Реляционная модель данных. В основном про SQL, довольно базовое представление: DROP, CREATE, JOIN, аггрегации. Использование SQLite в ноутбуках. Два ноутбука с заданиями.
👍1
Модуль 2. Тема 10. Вычисления с использованием numpy / scipy. Введение в numpy, работа с матрицами, матричные вычисления. Плотное (dense) и разреженное (sparse) хранение матриц, сжатое разреженное хранение и координатное хранение, куча кода и алгоритмов, четыре ноутбука для решения.
Модуль 2. Тема 11. Ранжирование объектов. Цепи Маркова. Наверное, самая офигенная тема из всего курса. Практическая задача по поиску наиболее важного аэропорта в США, который влияет на всю цепочку авиа-перевозок.

Practice Midterm 2. Тут также есть ряд супер-интересных кейсов для практики. На примере последней темы (pagerank), прогноз численности населения в 2046 году в зависимости от миграций людей в штатах.
Midterm 2. Данный экзамен дался мне существенно легче чем предыдущий, наобходимо было прилично поработать с pandas, сводными таблицами, groupby, на экзамен ушло у меня примерно полтора часа из четырех.

Последний блок предлагаемых тем в курсе в большей степени про конкретные алгоритмы, которые используют чаще всего во всех ввводных курсах (101) по машинному обучению, и, честно говоря, я переживал, что тут будет тоже самое: берем такую-то библиотеку, строим модель, оцениваем R² и так далее. Однако, все совершенно иначе, курс построен по принципу изучения алгоритма, лежащего в основе каждой модели, поэтому ноутбуки в бОльшей степени посвящены, например, пониманию метода наименьших квадратов и их реализации в Python, ничего даже близкого к использованию штатных библиотек. Разумеется, они приводятся в конце для сравнения полученого результата.
Модуль 2. Тема 12. Линейная регрессия. Выше базово уже описал, но тут примечателен тот пример про LSD, про который уже рассказывал, он как раз используется как пример для базовой модели линейной регрессии. ДЗ — решение ноутбука в четырех частях.
Модуль 2. Тема 13. Классификация (логистическая регрессия). Подробное погружение в классификацию, описание алгоритма для решения задачи. Ноутбук в качестве домашнего задания.
Модуль 2. Тема 14. Кластеризация с использованием k-средних. Ручное постепенное построение алгоритма k-средних, алгоритм довольно несложный, поэтому все решается внутри небольшого ноутбука.
Модуль 2. Тема 15. Компрессия данных c использованием PCA. Довольно подробное погружение в SVD, собственные числа, матричные вычисления. На данном ноутбуке уже было ощущение, что глубокой математики достаточно :)) Но тут как раз и курс подошел к концу.

Practice Problems for Final Exam. Опять же есть ряд супер-интересных задач на анализ текста песен и кластеризации текстов с использованием DBScan.
Final Exam. А этот экзамен снова оказался трудным, нужно было охватить материалы из всего курса, написать несколько алгоритмов и решить ряд проблем, в итоге истратил 4 часа, получил 16 из 18 баллов, проходной был 12, чтобы получить 100%.


Итого в курсе решил все задания на 100% из 100%, включая экзамены, заслуженно получил свою первую А. Классно, когда предмет дается интересно и ощущаешь пользу от полученных знаний.

#gatech #omsa #учеба
Forwarded from Reveal the Data
Год назад мы с Колей Валиотти сделали дашбород по рынку вакансий аналитиков. 🎉 Подводим итоги за год! Сделали это в виде карточек по разным направлениям аналитики — пощёлкайте и сравните разные профессии.

А ещё, подобрали ТГ каналы, чтобы качаться в каждой из областей:
— Про BI и Табло — Reveal The Data =)
— Про аналитику и DS — Left Join
— Про системный анализ — BA|SA
— Про DE — Инжиниринг данных
— Про маркетинг — Матемаркетинг
— Про Web — WebAnalytics

🔗 Карточки на Табло Паблик
🔗
Основной дашборд
Disclaimer: данные по вакансиям с HH для Москвы и Питера. Профессии определяются по наличию ключевых слов в названии вакансии (есть BI → BI-аналитик, есть ML → Data Scientist и т.п.). Больше всего вакансий в разделе просто «аналитик» и «бизнес-аналитик», так как под ними часто понимают разные обязанности. Зарплаты указаны как средние и чистыми. Кажется, что можно умножать на ×1.2-1.4 и будет примерно рынок.
#пример #ссылка
И немного инсайтов по карточкам выше

Data / Product аналитик:
количество вакансий несколько подросло, если сравнивать с зимой прошлого года и сейчас составляет около 350-450 открытых позиций;
процент удаленных позиций стабилен на уровне 18-20%
в динамике зарплаты с трудом можно увидеть инфляцию, уровень средней зп (это арифметическое среднее) колеблется на отметке 124-130К ₽. При этом распределение зарплат явно не выглядит нормальным, в целом, можно найти зарплату по специальности почти на любой вкус в рамках разумного, но и не в рамках разумного есть выбросы в размере 3% и 250К ₽ "на руки".

Data Scientist:
объем количество вакансий несколько меньше, чем по специальности дата аналитика и составляет 250-280 позиций ежемесячно
процент удаленных вакансий и его динамика крайне похожа на предыдущую специальность
а вот динамика зарплаты выглядит интереснее. Специалисты Data Science явно оцениваются выше и средний уровень ЗП составляет 172К ₽, при этом распределение зарплат явно в более "крупную" сторону и устремлено к 200К ₽. Динамика зарплат колеблется на уровне 165-180К ₽ однако разброс в уровне зарплат достаточно обширный, что отличает данную позицию от предыдущей
Forwarded from DataEng
юмор дата инженеров 😁
Среди каналов по анализу данных, которые я читаю, есть также и каналы по дата журналистике, которые как мне кажется интересны широкой аудитории поскольку умеют представить данные правильно. Авторы канала data.csv как раз собирают такие примеры использования данных — интересную инфографику и захватывающие истории, которые публикуют СМИ.

На канале можно найти работы лучших дата-журналистов со всего мира и самые интересные истории из России.

Подписаться на канал можно по ссылке: https://news.1rj.ru/str/data_csv.
Новинка на гитхабе — библиотека SQLModel для Python, которая упрощает взаимодействие с SQL базами данных.
Интересная статья о том, как Discord (это мессенджер, популярный в игровой индустрии, который недавно был оценен в $15 млрд) менял MongoDB на Cassandra.
В статье — критерии, по которым выбиралась база данных и некоторые впечатления о том, как данные моделируются в Cassandra.

#link
🎓 Курс MGT-6203 🎓

Честно говоря, данный курс был плохо организован, я был им дико не доволен. Ну, и отзывы на OMSCentral это подтверждают.
В начале курса мы заново проходили линейную регрессию в R (спрашивается для чего, если она уже была в курсе ISYE-6501), затем логистическую регрессию, затем изучали стандартное отклонение и ряд других самых базовых величин из финансовых вычислений (return, compound return), после этого погружались в метрики маркетинга (очень широко и несколько остало от действительности), в конце концов завершили курс управлением очередьми, оптимизацией процессов с использованием статистических критериев.

В курсе три домашних работы с вычислениями на R и два экзамена. Каждый экзамен состоит из теста на время и решения задачек без лимита на время.

Кстати, пока я писал посты про эти два курса начался осенний семестр. И у меня появилась идея о том, чтобы заснять серию видео для Youtube канала (вы же уже подписались?) о поступлении в ВУЗ (какие документы были нужны), о внутренних системах для студента Georgia Tech, о первых трех предметах и о последующих.

Ниже голосование, будет ли интересно вам узнать об этом?

#gatech #omsa