LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты тексты телеграм-канала Интернет-аналитика и выделены те аналитические каналы, на которые Леша Никушин в нем ссылался. Получился список таких каналов и процедура проделана еще раз, итеративно: мы взяли тексты всех записей этих каналов и распарсили их, нашли упоминания всех других аналитических телеграм-каналов. С парсингом текстов помогал стажер Андрей, а затем я построил граф связей на основе полученных данных, используя тулзу из Georgia Tech.

В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets

По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.

Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
Пару полезных онлайн-сервисов, которые недавно подглядел на HackerNews:
* SQlime.org от Антона Жиянова — минималистичная клауд песочница для работы с SQlite базой данных
* Extract Table from image — сервис для получения таблицы из картинки
Классное overview способов визуализации деревьев решений и идеи по современным способам их отображения.
Вчера завершилась онлайн конференция по современному open source data stack, о которой писал ранее.

Несколько докладов с конференции:
* Доклад от Head of Product Meltano ELT
* Доклад от product manager dbt и соведущей подкаста Analytics Engineering. В докладе в основном демка dbt.
* Доклад от фаундера Preset
В среду принял участие в подкасте Data Coffee, где рассказал кое-что про BI, dbt и, конечно же, про кофе ☕️
Слушайте и подписывайтесь, у ребят уже вышло много интересных выпусков 🎧
Forwarded from Data Coffee
В День Кофе ☕️ отлично поговорили с кандидатом экономических наук, специалистом и руководителем в области данных и BI, который по совместительству ещё и владелец online-магазина кофе. В гостях у подкаста “Data Coffee” — Николай Валиотти!

В честь праздника получили для слушателей подкаста промокод на заказ кофе 🔥🔥🔥

#datacoffee #podcast #data #подкаст #данные #кофе

https://anchor.fm/data-coffee/episodes/19-----SQL--dbt--BI-e185g4a
Совершенно кайфовый ресурс — визуальное введение в машинное обучение. К сожалению, по-русски у меня почему-то выдает ошибку 500. Но очень красиво и понятно сделано 😍
Data Project Manager — миф или реальность?

Ранее размещал инфу о вакансии проджект-менеджера. И, на удивление, не нашел откликов (в тч и на hh). В начале подумал, что с описанием что-то не так и пробовал разный нейминг вакансии, а затем лишь впоследствии осознал, что на самом деле такой профессии на рынке нет в широком смысле этого слова. Ей нигде не учат. Наверное, в каком-то смысле предполагалось, что моя исходная специальность в ВУЗе про это (информационные системы в экономике), однако проджект-менеджменту нас там уж точно не учили (справедливости ради: как рисовать диаграммы Гантта в MS Project мы проходили). Короче говоря, приходится самим выращивать специалистов внутри, давать эту самую доменную экспертизу в дате, аналитике и так далее.
Вот и вопрос к уважаемым мной @KarpovCourses и @practicumtech: появится ли такая специальность? Ждать ли в будущем подобных специалистов? 🤔

Предлагаю дискуссию в комментах — ваши мысли на этот счет? Есть ли такая профессия сегодня или это редкий вид?
Рассказываю про продолжение нашего исследования. Я поделился с Андреем файликом из CSE-6040. Там одно из прикольных заданий было разобраться с авиаперелетами в US и построить матрицу, в которой посчитаны вылеты из аэропорта А в аэропорт Б, затем посчитаны вероятности оказаться аэропорту i. После, используем матрицу и марковскую цепь для расчета потенциального состояния, где окажется пассажир, если он рандомно бесконечно вылетает.
И вот мы решили проделать тот же самый эксперимент, поскольку граф и количество связей у нас уже было собрано.

В результате получилось очень интересно. Например, нашли сайд-эффект: ряд телеграм-каналов ссылались только друг на друга, однако ряд крупных телеграм-каналов ссылался на них.
Вместе с тем получили топ-10 "финальных" состояний для двух вариантов расчета вероятностей. С результатом можно ознакомиться в Colab, который Андрей под моим пристальным взглядом любезно собрал.

Расскажите в комментах, на кого из каналов в полученных списках вы подписаны и почему?
Начинается горячая пора осенних конференций и митапов, открываю свое турне петербургским SmartData — конференцией для дата инженеров. Поговорим о self-service подходе и, надеюсь, живо подискутируем.

У ребят насыщенная четырехдневная программа, довольно высокие требования к докладам по теме (чего только стоят подготовительные дискуссии с легендарным своей ежемесячной рассылкой Jet Brains Data Engineering Пашей Финкельштейном), поэтому должно быть интересно. Конференция пройдет онлайн, но я буду выступать из студии 🎙

See ya!
Одной из основных тенденций в бизнес-аналитике становится использование решений класса Self-service BI.

Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о системе контроля версий для построения модели данных, рассмотрит лучшие практики и представит инструмент Looker. Рекомендуем доклад всем, кто хочет развивать self-service подход в своей компании.

Подробности и билеты: https://vk.cc/c6F0fX
И еще анонсы на ноябрь, раньше с Ромой работали за соседним столом, а теперь вот выступаем 😎
Питер едет на Матемаркетинг!

Матемаркетинг собирает спикеров со всего мира, и жители Северной столицы не остаются в стороне. Со спикерами, которые приедут в Москву, можно будет встретиться в оффлайне уже 18 ноября и послушать их доклады. Вот некоторые из них:

Николай Валиотти, основатель и главный аналитик Valiotti Analytics - Этапы проектирования BI-платформы, которая позволяет строить отчеты и получать данные специалистам без знания SQL

Михаил Алексеев, Okko - Эксперименты на нескольких платформах: как принимать решение, когда метрики расходятся

Рома Осокин, OHM - Изменения в ключевых рекламных системах и типах кампаний после выхода iOS 14+ & SKAD Network, следующий вызов от Google и как подготовиться к 2022

- - - -
Матемаркетинг-21 пройдет 18-19 ноября в Москве, а также будет доступен в онлайне.
↪️ Программа и все подробности доступны на нашем сайте.
- - - -

А пока рекомендуем посмотреть доклад Николая Валиотти с Матемаркетинга прошлого года, в котором он рассказывает о BI-системах и разбирает подходы к разработке дашбордов.
Пятнично об R, so true 😅
Как и для чего экспортировать красивые отчеты из Jupyter Notebook в PDF? 📗

Мы недавно проводили опрос в канале и выяснили, что многие только начинают свой путь в аналитику. Сегодняшний пост будет полезен, ведь мы расскажем об одном из самых важных навыков аналитика — формировании красивого отчета о проделанной работе. Если вы специалист по анализу данных и вам нужно представить отчет для заказчика, если вы ищете работу и не знаете, как лучше всего оформить тестовое задание, если у вас есть учебные проекты, связанные с аналитикой и визуализацией данных, то скорее читайте дальше.

Часто заказчику смотреть на ваши результаты аналтики в Jupyter Notebook бывает проблематично, ведь важная информация часто теряется между строчками кода с подготовкой данных, импортом нужных библиотек и серией попыток реализовать ту или иную идею. В посте мы рассказывает про экспорт ноутбука в PDF-файл в формате LaTeX — это отличный вариант для итоговой визуализации. Он сэкономит время и будет выглядеть презентабельно: графики и таблицы сразу помещаются в документ, верстка отчета происходит автоматически, ячейки с кодом не мешают восприятию информации, а вам нужно лишь выделить важные элементы работы для экспорта и расставить заголовки.

В новой статье блога вы можете посмотреть, как правильно вставлять в отчет графики из Plotly, таблицы в формате LaTeX, а также как экспортировать документ без лишней информации — без кода и сообщений о работе ячейки.
Желаем всем красивых отчетов 👍
Офигенная работа с текстом и визуализацией информации: разбор структуры стенда-апа и причины продолжительного смеха над шуткой, очень круто сделано 😍

#визуализация
Продолжу делиться информацией о датавизе: техника визуализации данных о текстовых кластерах и классный интерактивный пример на d3.js (пощелкайте там справа в селекторе Order)

#dataviz