LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Forwarded from Reveal the Data
Год назад мы с Колей Валиотти сделали дашбород по рынку вакансий аналитиков. 🎉 Подводим итоги за год! Сделали это в виде карточек по разным направлениям аналитики — пощёлкайте и сравните разные профессии.

А ещё, подобрали ТГ каналы, чтобы качаться в каждой из областей:
— Про BI и Табло — Reveal The Data =)
— Про аналитику и DS — Left Join
— Про системный анализ — BA|SA
— Про DE — Инжиниринг данных
— Про маркетинг — Матемаркетинг
— Про Web — WebAnalytics

🔗 Карточки на Табло Паблик
🔗
Основной дашборд
Disclaimer: данные по вакансиям с HH для Москвы и Питера. Профессии определяются по наличию ключевых слов в названии вакансии (есть BI → BI-аналитик, есть ML → Data Scientist и т.п.). Больше всего вакансий в разделе просто «аналитик» и «бизнес-аналитик», так как под ними часто понимают разные обязанности. Зарплаты указаны как средние и чистыми. Кажется, что можно умножать на ×1.2-1.4 и будет примерно рынок.
#пример #ссылка
И немного инсайтов по карточкам выше

Data / Product аналитик:
количество вакансий несколько подросло, если сравнивать с зимой прошлого года и сейчас составляет около 350-450 открытых позиций;
процент удаленных позиций стабилен на уровне 18-20%
в динамике зарплаты с трудом можно увидеть инфляцию, уровень средней зп (это арифметическое среднее) колеблется на отметке 124-130К ₽. При этом распределение зарплат явно не выглядит нормальным, в целом, можно найти зарплату по специальности почти на любой вкус в рамках разумного, но и не в рамках разумного есть выбросы в размере 3% и 250К ₽ "на руки".

Data Scientist:
объем количество вакансий несколько меньше, чем по специальности дата аналитика и составляет 250-280 позиций ежемесячно
процент удаленных вакансий и его динамика крайне похожа на предыдущую специальность
а вот динамика зарплаты выглядит интереснее. Специалисты Data Science явно оцениваются выше и средний уровень ЗП составляет 172К ₽, при этом распределение зарплат явно в более "крупную" сторону и устремлено к 200К ₽. Динамика зарплат колеблется на уровне 165-180К ₽ однако разброс в уровне зарплат достаточно обширный, что отличает данную позицию от предыдущей
Forwarded from DataEng
юмор дата инженеров 😁
Среди каналов по анализу данных, которые я читаю, есть также и каналы по дата журналистике, которые как мне кажется интересны широкой аудитории поскольку умеют представить данные правильно. Авторы канала data.csv как раз собирают такие примеры использования данных — интересную инфографику и захватывающие истории, которые публикуют СМИ.

На канале можно найти работы лучших дата-журналистов со всего мира и самые интересные истории из России.

Подписаться на канал можно по ссылке: https://news.1rj.ru/str/data_csv.
Новинка на гитхабе — библиотека SQLModel для Python, которая упрощает взаимодействие с SQL базами данных.
Интересная статья о том, как Discord (это мессенджер, популярный в игровой индустрии, который недавно был оценен в $15 млрд) менял MongoDB на Cassandra.
В статье — критерии, по которым выбиралась база данных и некоторые впечатления о том, как данные моделируются в Cassandra.

#link
🎓 Курс MGT-6203 🎓

Честно говоря, данный курс был плохо организован, я был им дико не доволен. Ну, и отзывы на OMSCentral это подтверждают.
В начале курса мы заново проходили линейную регрессию в R (спрашивается для чего, если она уже была в курсе ISYE-6501), затем логистическую регрессию, затем изучали стандартное отклонение и ряд других самых базовых величин из финансовых вычислений (return, compound return), после этого погружались в метрики маркетинга (очень широко и несколько остало от действительности), в конце концов завершили курс управлением очередьми, оптимизацией процессов с использованием статистических критериев.

В курсе три домашних работы с вычислениями на R и два экзамена. Каждый экзамен состоит из теста на время и решения задачек без лимита на время.

Кстати, пока я писал посты про эти два курса начался осенний семестр. И у меня появилась идея о том, чтобы заснять серию видео для Youtube канала (вы же уже подписались?) о поступлении в ВУЗ (какие документы были нужны), о внутренних системах для студента Georgia Tech, о первых трех предметах и о последующих.

Ниже голосование, будет ли интересно вам узнать об этом?

#gatech #omsa
Записать серию видео для Youtube канала о поступлении в Georgia Tech и о курсах, которые прохожу там?
Anonymous Poll
63%
Да, с удовольствием бы посмотрел и послушал
25%
Возможно, ознакомлюсь
13%
Нет, не интересна эта тема
Классная статья про использование цепей Маркова для моделирования числа ходов, необходимых для победы в игре 2048.
Там еще и продолжение есть.

#link
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний. Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.

#реклама
Про два слеша в http://

В осеннем семестре взял всего лишь один курс CSE6242, поскольку был ошарашен объемом материалов к изучению.
Курс супер-крутой, обязательно и подробно про него расскажу. В нем много про визуализацию данных, отсылок к Тафти и прям полноценное погружение в D3.js.

В рамках курса начал читать книгу Interactive Data Visualization for the Web от O'Reilly (классная!), и в ней обнаружилась интересность. Возможно, вы когда-то задумывались, почему протокол http:// указывается с двумя слешами? Оказывается, этому нет объяснения и создатель веба Тим Бернс Ли сожалеет об этом, поскольку они там совершенно ни для чего не нужны 🤷
1👍1
Смешное видео про интерпретатор javanoscript 😅
У Димы Аношина промелькнула интересная задачка в канале. В комментариях есть хорошие рабочие ответы, но меня заинтересовало то, что в PostgreSQL отсутствует RESPECT NULLS / IGNORE NULLS.

Как можно решить задачу без игнорирования NULLS?
Очевидно, что с подзапросом.

Предположим, что таблица называется test_case, тогда
SELECT ts, event_name, position, SUM(CASE WHEN position IS NOT NULL THEN 1 END) OVER (ORDER BY ts) as cum_group
FROM test_case


Данный подзапрос (назовем его sub) позволит нам разбить строки на группы, к которым нужно отнести строку с NULL. А если position будет отличная от NULL, мы получим новую группу.

Далее, мы можем просто посчитать первое значение из каждой группы, используя аналитическое выражение FIRST_VALUE.
SELECT ts, event_name, position, FIRST_VALUE(position) OVER (PARTITION BY cum_group) as result
FROM sub


Итого, все вместе:
SELECT ts, event_name, position, FIRST_VALUE(position) OVER (PARTITION BY cum_group) as result
FROM (SELECT ts, event_name, position, SUM(CASE WHEN position IS NOT NULL THEN 1 END) OVER (ORDER BY ts) as cum_group
FROM test_case) sub
Настя Кузнецова недавно спрашивала про классные названия библиотек на Python🐍

Вот, например, Pint 🍺 для работы с физическими величинами. Ну, разве не прелестное название? 😋
Так что, не единой пандой 🐼
Мне написал подписчик канала, аналитик данных Иван Тория, который поделился гайдом по запуску dbt на GCP в продакшене. Отличная статья, которая может быть полезна, если вы планируете развернуть dbt.
👍1
Одной из популярных тем в современном дата-стеке является проблема headless bi или проблема метаданных (организация единого источника правды). К примеру, airbnb решает это для себя через MinervaDB, но она пока не доступна для инженеров данных (закрытый код). А вот разработчики rakam (self-service BI, кстати, сделали ребрендинг) недавно выпустили MetriQL, который в связке с dbt должна решить эту проблему. MetriQL разработан под интересной лицензией: Business Source License.