Georgia Institute of Technology. Online Master of Science in Analytics.
В 2020 году я загорелся желанием освежить свое фундаментальное образование. На рынке сейчас представлено очень много разных курсов, но мне было интересно посмотреть как выглядит изнутри система образования в США. В последние годы, и особенно после начала пандемии COVID-19, онлайн-образование набрало невероятную популярность. Теперь даже топовые американские ВУЗы предлагают получить магистерскую степень онлайн. И я решил пройти этот путь 😎
Несмотря на то, что у меня уже есть наша PhD, я подал заявку на программу OMSA (Online Masters of Science in Analytics) в Georgia Institute of Technology. Ранее я уже приводил ряд ссылок на курсы этого ВУЗа (доступные бесплатно), но сам решил поступать на полноценную магистерскую программу. Меня привлекло то, что Georgia Tech занимает высокие позиции в рейтингах по Computer Science среди американских ВУЗов.
Надо сказать, что процесс поступления занял больше полугода. Нужно было предоставить сертификат TOEFL с высоким баллом (не менее 100 из 120), три рекомендательных письма из своей alma mater, сопроводительное письмо, CV и всю информацию о предыдущем образовании. И в ноябре 2020-го я получил долгожданное письмо о том, что меня приняли (приложил его)! Теперь я принадлежу к коммьюнити с маскотом пчелы 🐝 (Buzz).
Само образование построено в темпе “self-paced”, то есть в семестр можно набрать столько курсов, сколько сможешь унести (но, кажется, не более трех или четырех). На старте с учетом своего графика я взял только один курс — ISYE6501 (Intro Analytics Modeling), который является одним из обязательных и фундаментальных в программе. И вот позавчера получил свою первую оценку B за его прохождение. 🍾
В связи с этим ниже опрос — рассказать ли об этом опыте подробнее? Насколько вам интересен контент об американском образовании? Могу поделиться впечатлениями об этом курсе и о следующих: рассказать насколько учеба интенсивна, а содержание полезно.
В 2020 году я загорелся желанием освежить свое фундаментальное образование. На рынке сейчас представлено очень много разных курсов, но мне было интересно посмотреть как выглядит изнутри система образования в США. В последние годы, и особенно после начала пандемии COVID-19, онлайн-образование набрало невероятную популярность. Теперь даже топовые американские ВУЗы предлагают получить магистерскую степень онлайн. И я решил пройти этот путь 😎
Несмотря на то, что у меня уже есть наша PhD, я подал заявку на программу OMSA (Online Masters of Science in Analytics) в Georgia Institute of Technology. Ранее я уже приводил ряд ссылок на курсы этого ВУЗа (доступные бесплатно), но сам решил поступать на полноценную магистерскую программу. Меня привлекло то, что Georgia Tech занимает высокие позиции в рейтингах по Computer Science среди американских ВУЗов.
Надо сказать, что процесс поступления занял больше полугода. Нужно было предоставить сертификат TOEFL с высоким баллом (не менее 100 из 120), три рекомендательных письма из своей alma mater, сопроводительное письмо, CV и всю информацию о предыдущем образовании. И в ноябре 2020-го я получил долгожданное письмо о том, что меня приняли (приложил его)! Теперь я принадлежу к коммьюнити с маскотом пчелы 🐝 (Buzz).
Само образование построено в темпе “self-paced”, то есть в семестр можно набрать столько курсов, сколько сможешь унести (но, кажется, не более трех или четырех). На старте с учетом своего графика я взял только один курс — ISYE6501 (Intro Analytics Modeling), который является одним из обязательных и фундаментальных в программе. И вот позавчера получил свою первую оценку B за его прохождение. 🍾
В связи с этим ниже опрос — рассказать ли об этом опыте подробнее? Насколько вам интересен контент об американском образовании? Могу поделиться впечатлениями об этом курсе и о следующих: рассказать насколько учеба интенсивна, а содержание полезно.
Georgia Tech Professional Education
Online Master of Science in Analytics
Georgia Tech’s Online Master of Science in Analytics (OMS Analytics) is a top-5 nationally ranked data science and analytics program. As an interdisciplinary data science and analytics degree program, OMS Analytics leverages three of Georgia Tech’s top-ranked…
Интересно ли почитать об американском образовании (в частности, Georgia Tech)
Anonymous Poll
83%
Да, весьма
17%
Нет, не очень
SQLiteViz — оффлайн библиотека для создания диаграмм Plotly на SQLite бд или .csv-файлах. Нечто похожее на Redash 🙂
GitHub
GitHub - lana-k/sqliteviz: Instant offline SQL-powered data visualisation in your browser
Instant offline SQL-powered data visualisation in your browser - lana-k/sqliteviz
Процесс обучения на программе OMSA
В опросе большинство высказалось за то, чтобы я продолжил рассказ про магистерскую программу OMSA в Georgia Tech. Начну рассказ с того, как в целом построена программа и какие направления (треки) можно выбрать.
Всего для получения магистерской степени надо набрать 36 credit hours. При этом каждый курс оценивается в 3 credit hours, а за магистерскую диссертацию (master thesis) получаешь 6 credit hours. Счета за программу выставляют каждый семестр, а сумма зависит от того, сколько credit hours вы выбрали в отчетном периоде.
Сама программа разделена на три трека:
1) Analytical Tools — в процессе обучения делается акцент на статистику, эконометрику и методы оптимизации.
2) Business Analytics — представляет собой усредненную бизнес-специализацию. Про этот трек на Reddit шутят, что он для тех, кто хочет просто получить диплом Georgia Tech.
3) Computational Data Analytics — как я понимаю, это направление образовалось на базе программы OMSCS (Master of Science in Computer Science), и фокус сделан на вычислительные методы анализа данных. Именно этот трек обучения я и выбрал.
Однако, прежде чем приступить к основным курсам (majors) каждого трека, надо в обязательном порядке пройти Basic и Advanced междисциплинарные курсы.
BASIC
Три курса, по сути, из каждого направления:
ISYE6501 (Intro to Analytics Modeling) — курс про аналитические инструменты и использование R, который я недавно закончил (скоро расскажу о нем);
CSE6040 (Computing for Data Analysis) — анализ данных с использованием Python;
MGT8803 (Business Fundamentals for Analytics) — какой-то общий бизнес-курс, от которого я отписался.
ADVANCED
CSE6242 (Data and Visual Analytics) — анализ и визуализация данных.
MGT6203 (Data Analytics in Business) — общий курс про применение аналитики в бизнесе.
Два курса по статистике на выбор и один курс из раздела operations research.
А дальше, в зависимости от выбранного трека, можно выбрать курсы из соответствующей колонки на картинке выше.
Возможности Opt-out
От базовых курсов можно отписаться, если соответствующий опыт был получен в вашем предыдущем ВУЗе. У меня такой опыт был, но я посчитал целесообразным оставить курсы ISYE6510 и CSE6040, чтобы посмотреть как они выглядят изнутри. А вот от курса MGT8803 отказался, так как по оценкам студентов он “не очень“.
И вообще, у американцев все продумано — есть целый ресурс, где можно посмотреть отзывы и рейтинги по каждому курсу, примерные ожидания по затрачиваемым часам на прохождение и так далее.
В следующем посте расскажу о том, как устроен процесс обучения на курсе ISYE6501, который я выбрал для весеннего семестра. А потом напишу пост про содержание этого курса.
#gatech #omsa
В опросе большинство высказалось за то, чтобы я продолжил рассказ про магистерскую программу OMSA в Georgia Tech. Начну рассказ с того, как в целом построена программа и какие направления (треки) можно выбрать.
Всего для получения магистерской степени надо набрать 36 credit hours. При этом каждый курс оценивается в 3 credit hours, а за магистерскую диссертацию (master thesis) получаешь 6 credit hours. Счета за программу выставляют каждый семестр, а сумма зависит от того, сколько credit hours вы выбрали в отчетном периоде.
Сама программа разделена на три трека:
1) Analytical Tools — в процессе обучения делается акцент на статистику, эконометрику и методы оптимизации.
2) Business Analytics — представляет собой усредненную бизнес-специализацию. Про этот трек на Reddit шутят, что он для тех, кто хочет просто получить диплом Georgia Tech.
3) Computational Data Analytics — как я понимаю, это направление образовалось на базе программы OMSCS (Master of Science in Computer Science), и фокус сделан на вычислительные методы анализа данных. Именно этот трек обучения я и выбрал.
Однако, прежде чем приступить к основным курсам (majors) каждого трека, надо в обязательном порядке пройти Basic и Advanced междисциплинарные курсы.
BASIC
Три курса, по сути, из каждого направления:
ISYE6501 (Intro to Analytics Modeling) — курс про аналитические инструменты и использование R, который я недавно закончил (скоро расскажу о нем);
CSE6040 (Computing for Data Analysis) — анализ данных с использованием Python;
MGT8803 (Business Fundamentals for Analytics) — какой-то общий бизнес-курс, от которого я отписался.
ADVANCED
CSE6242 (Data and Visual Analytics) — анализ и визуализация данных.
MGT6203 (Data Analytics in Business) — общий курс про применение аналитики в бизнесе.
Два курса по статистике на выбор и один курс из раздела operations research.
А дальше, в зависимости от выбранного трека, можно выбрать курсы из соответствующей колонки на картинке выше.
Возможности Opt-out
От базовых курсов можно отписаться, если соответствующий опыт был получен в вашем предыдущем ВУЗе. У меня такой опыт был, но я посчитал целесообразным оставить курсы ISYE6510 и CSE6040, чтобы посмотреть как они выглядят изнутри. А вот от курса MGT8803 отказался, так как по оценкам студентов он “не очень“.
И вообще, у американцев все продумано — есть целый ресурс, где можно посмотреть отзывы и рейтинги по каждому курсу, примерные ожидания по затрачиваемым часам на прохождение и так далее.
В следующем посте расскажу о том, как устроен процесс обучения на курсе ISYE6501, который я выбрал для весеннего семестра. А потом напишу пост про содержание этого курса.
#gatech #omsa
Мы уже уже анализировали рынок вакансий аналитиков в России по данным HeadHunter. Теперь хотим сравнить зарплаты специалистов в области Data Science в разных странах. В первом материале проекта расскажем, как парсить данные из базы Indeed — крупнейшего поисковика вакансий в мире:
https://leftjoin.ru/all/parser-indeed-with-python/
https://leftjoin.ru/all/parser-indeed-with-python/
leftjoin.ru
Парсим вакансии для аналитиков из Indeed
ISYE 6501: Intro to Analytics Modeling
Сегодня расскажу немного о первом вводном курсе ISYE6501. Сначала пойдут мои общие эмоции относительно курса, а затем опишу структура контента.
В целом, курс мне скорее понравился, чем не понравился, но график прохождения курса очень жесткий: одновременно может случиться большая домашняя работа, лекции почти на 2-3 часа и подготовка к Midterm Quiz. При этом первая часть курса была для меня существенно интереснее, чем вторая.
Оценка за весь курс состоит из нескольких частей:
Сами домашние работы занимают от 5 до 10 часов, если уже есть опыт работы с R. Без опыта мне даже страшно представить временные затраты, так как курс начинается с места в карьер: прямо с первой недели надо писать прозрачный функциональный код.
Если говорить о контенте, то курс состоит из рассмотрения аналитических инструментов (analytical tools) и сквозных концепций (cross-cutting conceptions). Всего курс длится 15 недель, каждую неделю публикуются новые видео и задания. В первой половине курса изучаются основы, а в конце то, как эти основы применяются в конкретных кейсах (последняя часть оказалась очень скучной для меня).
Понедельно программа выглядит так (цифра — номер недели):
1. Классификация (kNN, SVM) и общие определения данных, масштабирование.
2. Валидация, train-test split, кросс-валидация, кластеризация и отличия supervised от unsupervised.
3. Определение выбросов (тема вдохновила на отдельную статью в блоге), модель CUSUM (новое знание для меня).
4. Временные ряды: экспоненциальное сглаживание, ARIMA, GARCH, сезонность, тренд.
5. Линейная регрессия: максимальная правдоподобность, AIC/BIC, causation vs correlation, data transformation (box-cox).
6. Продвинутая подготовка данных: BoxCox, PCA, De-trending.
7. Продвинутая регрессия: CART, Random Forrests, Logistic Regression, Confusion Matrices.
MidTerm Quiz 1.
8. Выбор переменных: Stepwise Regression, Ridge, Lasso, ElasticNet.
9. Design of Experiments, AB-tests, Factorial Design, Multi-arm bandits.
Вероятностные модели: Бернулли, биномиальные распределения, геометрические распределения.
Распределения Пуассона, экспоненциальное распределение, распределение Вейбулла. QQ-plots, симуляции, цепи Маркова.
5 эмоджи типа едет крыша
10. Пропущенные значения. Методы восстановления данных.
Введение в модели оптимизации, функции оптимизации (Часть 1).
11. Оптимизационные модели (Часть 2). Нейронные сети, deep learning, графы, network models (конечно, просто overview).
Модели теории игр.
Midterm Quiz 2.
12. Кейс электрокомпании.
13. Кейс в ритейле.
14. Кейс в области монетизации данных.
15. Курсовой проект.
Final Exam.
Несколько скриншотов из видео, которые мне запомнились, ниже.
#gatech #omsa
Сегодня расскажу немного о первом вводном курсе ISYE6501. Сначала пойдут мои общие эмоции относительно курса, а затем опишу структура контента.
В целом, курс мне скорее понравился, чем не понравился, но график прохождения курса очень жесткий: одновременно может случиться большая домашняя работа, лекции почти на 2-3 часа и подготовка к Midterm Quiz. При этом первая часть курса была для меня существенно интереснее, чем вторая.
Оценка за весь курс состоит из нескольких частей:
◾ Самый высокий вес имеет Final Exam, а также Midterm Quiz 1, Midterm Quiz 2. Совокупно они составляют 75% общей оценки.◾ Также предусмотрен курсовой проект — на него приходится 15% итоговой оценки◾ Оставшиеся 10% — это выполнение домашних заданий, которые, кстати, оцениваются другими студентами (это тоже дополнительная нагрузка, потому что каждую неделю нужно оценивать три работы)Сами домашние работы занимают от 5 до 10 часов, если уже есть опыт работы с R. Без опыта мне даже страшно представить временные затраты, так как курс начинается с места в карьер: прямо с первой недели надо писать прозрачный функциональный код.
Если говорить о контенте, то курс состоит из рассмотрения аналитических инструментов (analytical tools) и сквозных концепций (cross-cutting conceptions). Всего курс длится 15 недель, каждую неделю публикуются новые видео и задания. В первой половине курса изучаются основы, а в конце то, как эти основы применяются в конкретных кейсах (последняя часть оказалась очень скучной для меня).
Понедельно программа выглядит так (цифра — номер недели):
1. Классификация (kNN, SVM) и общие определения данных, масштабирование.
2. Валидация, train-test split, кросс-валидация, кластеризация и отличия supervised от unsupervised.
3. Определение выбросов (тема вдохновила на отдельную статью в блоге), модель CUSUM (новое знание для меня).
4. Временные ряды: экспоненциальное сглаживание, ARIMA, GARCH, сезонность, тренд.
5. Линейная регрессия: максимальная правдоподобность, AIC/BIC, causation vs correlation, data transformation (box-cox).
6. Продвинутая подготовка данных: BoxCox, PCA, De-trending.
7. Продвинутая регрессия: CART, Random Forrests, Logistic Regression, Confusion Matrices.
MidTerm Quiz 1.
8. Выбор переменных: Stepwise Regression, Ridge, Lasso, ElasticNet.
9. Design of Experiments, AB-tests, Factorial Design, Multi-arm bandits.
Вероятностные модели: Бернулли, биномиальные распределения, геометрические распределения.
Распределения Пуассона, экспоненциальное распределение, распределение Вейбулла. QQ-plots, симуляции, цепи Маркова.
5 эмоджи типа едет крыша
10. Пропущенные значения. Методы восстановления данных.
Введение в модели оптимизации, функции оптимизации (Часть 1).
11. Оптимизационные модели (Часть 2). Нейронные сети, deep learning, графы, network models (конечно, просто overview).
Модели теории игр.
Midterm Quiz 2.
12. Кейс электрокомпании.
13. Кейс в ритейле.
14. Кейс в области монетизации данных.
15. Курсовой проект.
Final Exam.
Несколько скриншотов из видео, которые мне запомнились, ниже.
#gatech #omsa
Если вдруг когда-то хотели подучить регулярные выражения, RegexOne отлично с этим поможет.
Regexone
RegexOne - Learn Regular Expressions - Lesson 1: An Introduction, and the ABCs
RegexOne provides a set of interactive lessons and exercises to help you learn regular expressions
👍1
Иногда возникает необходимость потренироваться на каком-нибудь датасете, на этот случай в интернете имеется библиотека датасетов упакованных в SQLite базы данных.
Кайфовый интерактивный датавиз про популярность Байдена на выборах (а ранее Трампа и других президентов)
#link
#link
Про Looker ранее я уже писал несколько раз, а вот есть Lightdash — opensource версия Looker (github), которая использует dbt в основе.
Краткое описание от создателей:
Lightdash removes the gap between your data transformation layer and your data visualization layer. It enables data analysts and engineers to control all of their business intelligence (data transformations/business logic as well as data visualization) in a single place.
Lightdash integrates with your dbt project and gives a framework for defining metrics and specifying joins between models all within your existing dbt YAML files. The data output from your dbt project is then available for exploring and sharing in Lightdash.
Есть доступная онлайн демка. Можно установить на свой хост через Docker.
Визуально это выглядит пока не восторг, но функционально, кажется, большую часть удалось воссоздать.
Краткое описание от создателей:
Lightdash removes the gap between your data transformation layer and your data visualization layer. It enables data analysts and engineers to control all of their business intelligence (data transformations/business logic as well as data visualization) in a single place.
Lightdash integrates with your dbt project and gives a framework for defining metrics and specifying joins between models all within your existing dbt YAML files. The data output from your dbt project is then available for exploring and sharing in Lightdash.
Есть доступная онлайн демка. Можно установить на свой хост через Docker.
Визуально это выглядит пока не восторг, но функционально, кажется, большую часть удалось воссоздать.
Telegram
LEFT JOIN
Looker — BI-инструмент класса self-service: все отчёты и аналитику пользователь может сделать самостоятельно без привлечения специалиста в области данных, а последний заранее настраивает необходимые модели данных.
В новом видео цикла гайдов по BI-системам…
В новом видео цикла гайдов по BI-системам…
Когда-то давно на первом и втором курсе мы изучали пакет Wolfram Research Mathematica. В рамках курса мы писали алгоритмы, работали со структурами данных, считали перестановки и так далее. Отличным сопровждением была книга от моих преподавателей Mathematica для нематематика, это совершенно потрясающее чтиво для тех, кто интересуется компьютерной алгеброй.
И несмотря на то, что сама Mathematica, возможно, уже не так актуальна, книга от докторов наук Вавилова Н.А., Халина В.Г. и Юркова А.В. была совершенно бесплатно издана онлайн, и я всячески ее рекомендую к прочтению, всем кто интересуется темой. 📔
И несмотря на то, что сама Mathematica, возможно, уже не так актуальна, книга от докторов наук Вавилова Н.А., Халина В.Г. и Юркова А.В. была совершенно бесплатно издана онлайн, и я всячески ее рекомендую к прочтению, всем кто интересуется темой. 📔
Wolfram
Wolfram Mathematica: Modern Technical Computing
Mathematica: high-powered computation with thousands of Wolfram Language functions, natural language input, real-world data, mobile support.
Свежак от коллег из Altinity: Clickhouse ODBC-connector к Tableau.
Инструкции по установке (спс BloodJazMan)
Инструкции по установке (спс BloodJazMan)
GitHub
GitHub - Altinity/tableau-connector-for-clickhouse: Tableau connector to ClickHouse using ODBC or JDBC driver
Tableau connector to ClickHouse using ODBC or JDBC driver - Altinity/tableau-connector-for-clickhouse
Шикарная погода в Санкт-Петербурге ☀️, летняя сессия в Georgia Tech 👨🎓и активные трудовые будни 🧑🏭 не позволяли публиковать материалы в последнее время, но исправляю эту оплошность.
Спешу познакомить вас с нашим новым трудом, опубликованным в Tableau Public: дашборд с анализом семи альбомов Земфиры. Это продолжение нашего предыдущего материала про анализ текстов альбома "бордерлайн", но без технических деталей, а с интерактивноcтью Tableau.
Спешу познакомить вас с нашим новым трудом, опубликованным в Tableau Public: дашборд с анализом семи альбомов Земфиры. Это продолжение нашего предыдущего материала про анализ текстов альбома "бордерлайн", но без технических деталей, а с интерактивноcтью Tableau.
leftjoin.ru
Анализ альбомов Земфиры: дашборд в Tableau