LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Forwarded from DataEng
юмор дата инженеров 😁
Среди каналов по анализу данных, которые я читаю, есть также и каналы по дата журналистике, которые как мне кажется интересны широкой аудитории поскольку умеют представить данные правильно. Авторы канала data.csv как раз собирают такие примеры использования данных — интересную инфографику и захватывающие истории, которые публикуют СМИ.

На канале можно найти работы лучших дата-журналистов со всего мира и самые интересные истории из России.

Подписаться на канал можно по ссылке: https://news.1rj.ru/str/data_csv.
Новинка на гитхабе — библиотека SQLModel для Python, которая упрощает взаимодействие с SQL базами данных.
Интересная статья о том, как Discord (это мессенджер, популярный в игровой индустрии, который недавно был оценен в $15 млрд) менял MongoDB на Cassandra.
В статье — критерии, по которым выбиралась база данных и некоторые впечатления о том, как данные моделируются в Cassandra.

#link
🎓 Курс MGT-6203 🎓

Честно говоря, данный курс был плохо организован, я был им дико не доволен. Ну, и отзывы на OMSCentral это подтверждают.
В начале курса мы заново проходили линейную регрессию в R (спрашивается для чего, если она уже была в курсе ISYE-6501), затем логистическую регрессию, затем изучали стандартное отклонение и ряд других самых базовых величин из финансовых вычислений (return, compound return), после этого погружались в метрики маркетинга (очень широко и несколько остало от действительности), в конце концов завершили курс управлением очередьми, оптимизацией процессов с использованием статистических критериев.

В курсе три домашних работы с вычислениями на R и два экзамена. Каждый экзамен состоит из теста на время и решения задачек без лимита на время.

Кстати, пока я писал посты про эти два курса начался осенний семестр. И у меня появилась идея о том, чтобы заснять серию видео для Youtube канала (вы же уже подписались?) о поступлении в ВУЗ (какие документы были нужны), о внутренних системах для студента Georgia Tech, о первых трех предметах и о последующих.

Ниже голосование, будет ли интересно вам узнать об этом?

#gatech #omsa
Записать серию видео для Youtube канала о поступлении в Georgia Tech и о курсах, которые прохожу там?
Anonymous Poll
63%
Да, с удовольствием бы посмотрел и послушал
25%
Возможно, ознакомлюсь
13%
Нет, не интересна эта тема
Классная статья про использование цепей Маркова для моделирования числа ходов, необходимых для победы в игре 2048.
Там еще и продолжение есть.

#link
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний. Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.

#реклама
Про два слеша в http://

В осеннем семестре взял всего лишь один курс CSE6242, поскольку был ошарашен объемом материалов к изучению.
Курс супер-крутой, обязательно и подробно про него расскажу. В нем много про визуализацию данных, отсылок к Тафти и прям полноценное погружение в D3.js.

В рамках курса начал читать книгу Interactive Data Visualization for the Web от O'Reilly (классная!), и в ней обнаружилась интересность. Возможно, вы когда-то задумывались, почему протокол http:// указывается с двумя слешами? Оказывается, этому нет объяснения и создатель веба Тим Бернс Ли сожалеет об этом, поскольку они там совершенно ни для чего не нужны 🤷
1👍1
Смешное видео про интерпретатор javanoscript 😅
У Димы Аношина промелькнула интересная задачка в канале. В комментариях есть хорошие рабочие ответы, но меня заинтересовало то, что в PostgreSQL отсутствует RESPECT NULLS / IGNORE NULLS.

Как можно решить задачу без игнорирования NULLS?
Очевидно, что с подзапросом.

Предположим, что таблица называется test_case, тогда
SELECT ts, event_name, position, SUM(CASE WHEN position IS NOT NULL THEN 1 END) OVER (ORDER BY ts) as cum_group
FROM test_case


Данный подзапрос (назовем его sub) позволит нам разбить строки на группы, к которым нужно отнести строку с NULL. А если position будет отличная от NULL, мы получим новую группу.

Далее, мы можем просто посчитать первое значение из каждой группы, используя аналитическое выражение FIRST_VALUE.
SELECT ts, event_name, position, FIRST_VALUE(position) OVER (PARTITION BY cum_group) as result
FROM sub


Итого, все вместе:
SELECT ts, event_name, position, FIRST_VALUE(position) OVER (PARTITION BY cum_group) as result
FROM (SELECT ts, event_name, position, SUM(CASE WHEN position IS NOT NULL THEN 1 END) OVER (ORDER BY ts) as cum_group
FROM test_case) sub
Настя Кузнецова недавно спрашивала про классные названия библиотек на Python🐍

Вот, например, Pint 🍺 для работы с физическими величинами. Ну, разве не прелестное название? 😋
Так что, не единой пандой 🐼
Мне написал подписчик канала, аналитик данных Иван Тория, который поделился гайдом по запуску dbt на GCP в продакшене. Отличная статья, которая может быть полезна, если вы планируете развернуть dbt.
👍1
Одной из популярных тем в современном дата-стеке является проблема headless bi или проблема метаданных (организация единого источника правды). К примеру, airbnb решает это для себя через MinervaDB, но она пока не доступна для инженеров данных (закрытый код). А вот разработчики rakam (self-service BI, кстати, сделали ребрендинг) недавно выпустили MetriQL, который в связке с dbt должна решить эту проблему. MetriQL разработан под интересной лицензией: Business Source License.
Минутка фото-контента: вечерние посиделки с авторитетами BI-рынка РФ в Петербургском Трапписте: @sgromych, @paveldubinin
В сегодняшнем видео цикла гайдов по BI-инструментов говорим про Metabase – open-source инструмент, который умеет самостоятельно описывать датасеты, отправлять уведомления об изменениях в данных, и, конечно, писать запросы к данным и строить на полученных результатах визуализации и дашборды.

Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.

Автор дашборда, член команды Valiotti Analytics — Мария Авдеева
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
12%
1
0%
2
2%
3
2%
4
16%
5
9%
6
19%
7
23%
8
5%
9
12%
10