LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Модуль 2. Тема 10. Вычисления с использованием numpy / scipy. Введение в numpy, работа с матрицами, матричные вычисления. Плотное (dense) и разреженное (sparse) хранение матриц, сжатое разреженное хранение и координатное хранение, куча кода и алгоритмов, четыре ноутбука для решения.
Модуль 2. Тема 11. Ранжирование объектов. Цепи Маркова. Наверное, самая офигенная тема из всего курса. Практическая задача по поиску наиболее важного аэропорта в США, который влияет на всю цепочку авиа-перевозок.

Practice Midterm 2. Тут также есть ряд супер-интересных кейсов для практики. На примере последней темы (pagerank), прогноз численности населения в 2046 году в зависимости от миграций людей в штатах.
Midterm 2. Данный экзамен дался мне существенно легче чем предыдущий, наобходимо было прилично поработать с pandas, сводными таблицами, groupby, на экзамен ушло у меня примерно полтора часа из четырех.

Последний блок предлагаемых тем в курсе в большей степени про конкретные алгоритмы, которые используют чаще всего во всех ввводных курсах (101) по машинному обучению, и, честно говоря, я переживал, что тут будет тоже самое: берем такую-то библиотеку, строим модель, оцениваем R² и так далее. Однако, все совершенно иначе, курс построен по принципу изучения алгоритма, лежащего в основе каждой модели, поэтому ноутбуки в бОльшей степени посвящены, например, пониманию метода наименьших квадратов и их реализации в Python, ничего даже близкого к использованию штатных библиотек. Разумеется, они приводятся в конце для сравнения полученого результата.
Модуль 2. Тема 12. Линейная регрессия. Выше базово уже описал, но тут примечателен тот пример про LSD, про который уже рассказывал, он как раз используется как пример для базовой модели линейной регрессии. ДЗ — решение ноутбука в четырех частях.
Модуль 2. Тема 13. Классификация (логистическая регрессия). Подробное погружение в классификацию, описание алгоритма для решения задачи. Ноутбук в качестве домашнего задания.
Модуль 2. Тема 14. Кластеризация с использованием k-средних. Ручное постепенное построение алгоритма k-средних, алгоритм довольно несложный, поэтому все решается внутри небольшого ноутбука.
Модуль 2. Тема 15. Компрессия данных c использованием PCA. Довольно подробное погружение в SVD, собственные числа, матричные вычисления. На данном ноутбуке уже было ощущение, что глубокой математики достаточно :)) Но тут как раз и курс подошел к концу.

Practice Problems for Final Exam. Опять же есть ряд супер-интересных задач на анализ текста песен и кластеризации текстов с использованием DBScan.
Final Exam. А этот экзамен снова оказался трудным, нужно было охватить материалы из всего курса, написать несколько алгоритмов и решить ряд проблем, в итоге истратил 4 часа, получил 16 из 18 баллов, проходной был 12, чтобы получить 100%.


Итого в курсе решил все задания на 100% из 100%, включая экзамены, заслуженно получил свою первую А. Классно, когда предмет дается интересно и ощущаешь пользу от полученных знаний.

#gatech #omsa #учеба
Forwarded from Reveal the Data
Год назад мы с Колей Валиотти сделали дашбород по рынку вакансий аналитиков. 🎉 Подводим итоги за год! Сделали это в виде карточек по разным направлениям аналитики — пощёлкайте и сравните разные профессии.

А ещё, подобрали ТГ каналы, чтобы качаться в каждой из областей:
— Про BI и Табло — Reveal The Data =)
— Про аналитику и DS — Left Join
— Про системный анализ — BA|SA
— Про DE — Инжиниринг данных
— Про маркетинг — Матемаркетинг
— Про Web — WebAnalytics

🔗 Карточки на Табло Паблик
🔗
Основной дашборд
Disclaimer: данные по вакансиям с HH для Москвы и Питера. Профессии определяются по наличию ключевых слов в названии вакансии (есть BI → BI-аналитик, есть ML → Data Scientist и т.п.). Больше всего вакансий в разделе просто «аналитик» и «бизнес-аналитик», так как под ними часто понимают разные обязанности. Зарплаты указаны как средние и чистыми. Кажется, что можно умножать на ×1.2-1.4 и будет примерно рынок.
#пример #ссылка
И немного инсайтов по карточкам выше

Data / Product аналитик:
количество вакансий несколько подросло, если сравнивать с зимой прошлого года и сейчас составляет около 350-450 открытых позиций;
процент удаленных позиций стабилен на уровне 18-20%
в динамике зарплаты с трудом можно увидеть инфляцию, уровень средней зп (это арифметическое среднее) колеблется на отметке 124-130К ₽. При этом распределение зарплат явно не выглядит нормальным, в целом, можно найти зарплату по специальности почти на любой вкус в рамках разумного, но и не в рамках разумного есть выбросы в размере 3% и 250К ₽ "на руки".

Data Scientist:
объем количество вакансий несколько меньше, чем по специальности дата аналитика и составляет 250-280 позиций ежемесячно
процент удаленных вакансий и его динамика крайне похожа на предыдущую специальность
а вот динамика зарплаты выглядит интереснее. Специалисты Data Science явно оцениваются выше и средний уровень ЗП составляет 172К ₽, при этом распределение зарплат явно в более "крупную" сторону и устремлено к 200К ₽. Динамика зарплат колеблется на уровне 165-180К ₽ однако разброс в уровне зарплат достаточно обширный, что отличает данную позицию от предыдущей
Forwarded from DataEng
юмор дата инженеров 😁
Среди каналов по анализу данных, которые я читаю, есть также и каналы по дата журналистике, которые как мне кажется интересны широкой аудитории поскольку умеют представить данные правильно. Авторы канала data.csv как раз собирают такие примеры использования данных — интересную инфографику и захватывающие истории, которые публикуют СМИ.

На канале можно найти работы лучших дата-журналистов со всего мира и самые интересные истории из России.

Подписаться на канал можно по ссылке: https://news.1rj.ru/str/data_csv.
Новинка на гитхабе — библиотека SQLModel для Python, которая упрощает взаимодействие с SQL базами данных.
Интересная статья о том, как Discord (это мессенджер, популярный в игровой индустрии, который недавно был оценен в $15 млрд) менял MongoDB на Cassandra.
В статье — критерии, по которым выбиралась база данных и некоторые впечатления о том, как данные моделируются в Cassandra.

#link
🎓 Курс MGT-6203 🎓

Честно говоря, данный курс был плохо организован, я был им дико не доволен. Ну, и отзывы на OMSCentral это подтверждают.
В начале курса мы заново проходили линейную регрессию в R (спрашивается для чего, если она уже была в курсе ISYE-6501), затем логистическую регрессию, затем изучали стандартное отклонение и ряд других самых базовых величин из финансовых вычислений (return, compound return), после этого погружались в метрики маркетинга (очень широко и несколько остало от действительности), в конце концов завершили курс управлением очередьми, оптимизацией процессов с использованием статистических критериев.

В курсе три домашних работы с вычислениями на R и два экзамена. Каждый экзамен состоит из теста на время и решения задачек без лимита на время.

Кстати, пока я писал посты про эти два курса начался осенний семестр. И у меня появилась идея о том, чтобы заснять серию видео для Youtube канала (вы же уже подписались?) о поступлении в ВУЗ (какие документы были нужны), о внутренних системах для студента Georgia Tech, о первых трех предметах и о последующих.

Ниже голосование, будет ли интересно вам узнать об этом?

#gatech #omsa
Записать серию видео для Youtube канала о поступлении в Georgia Tech и о курсах, которые прохожу там?
Anonymous Poll
63%
Да, с удовольствием бы посмотрел и послушал
25%
Возможно, ознакомлюсь
13%
Нет, не интересна эта тема
Классная статья про использование цепей Маркова для моделирования числа ходов, необходимых для победы в игре 2048.
Там еще и продолжение есть.

#link
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний. Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.

#реклама