LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Рассказываю про продолжение нашего исследования. Я поделился с Андреем файликом из CSE-6040. Там одно из прикольных заданий было разобраться с авиаперелетами в US и построить матрицу, в которой посчитаны вылеты из аэропорта А в аэропорт Б, затем посчитаны вероятности оказаться аэропорту i. После, используем матрицу и марковскую цепь для расчета потенциального состояния, где окажется пассажир, если он рандомно бесконечно вылетает.
И вот мы решили проделать тот же самый эксперимент, поскольку граф и количество связей у нас уже было собрано.

В результате получилось очень интересно. Например, нашли сайд-эффект: ряд телеграм-каналов ссылались только друг на друга, однако ряд крупных телеграм-каналов ссылался на них.
Вместе с тем получили топ-10 "финальных" состояний для двух вариантов расчета вероятностей. С результатом можно ознакомиться в Colab, который Андрей под моим пристальным взглядом любезно собрал.

Расскажите в комментах, на кого из каналов в полученных списках вы подписаны и почему?
Начинается горячая пора осенних конференций и митапов, открываю свое турне петербургским SmartData — конференцией для дата инженеров. Поговорим о self-service подходе и, надеюсь, живо подискутируем.

У ребят насыщенная четырехдневная программа, довольно высокие требования к докладам по теме (чего только стоят подготовительные дискуссии с легендарным своей ежемесячной рассылкой Jet Brains Data Engineering Пашей Финкельштейном), поэтому должно быть интересно. Конференция пройдет онлайн, но я буду выступать из студии 🎙

See ya!
Одной из основных тенденций в бизнес-аналитике становится использование решений класса Self-service BI.

Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о системе контроля версий для построения модели данных, рассмотрит лучшие практики и представит инструмент Looker. Рекомендуем доклад всем, кто хочет развивать self-service подход в своей компании.

Подробности и билеты: https://vk.cc/c6F0fX
И еще анонсы на ноябрь, раньше с Ромой работали за соседним столом, а теперь вот выступаем 😎
Питер едет на Матемаркетинг!

Матемаркетинг собирает спикеров со всего мира, и жители Северной столицы не остаются в стороне. Со спикерами, которые приедут в Москву, можно будет встретиться в оффлайне уже 18 ноября и послушать их доклады. Вот некоторые из них:

Николай Валиотти, основатель и главный аналитик Valiotti Analytics - Этапы проектирования BI-платформы, которая позволяет строить отчеты и получать данные специалистам без знания SQL

Михаил Алексеев, Okko - Эксперименты на нескольких платформах: как принимать решение, когда метрики расходятся

Рома Осокин, OHM - Изменения в ключевых рекламных системах и типах кампаний после выхода iOS 14+ & SKAD Network, следующий вызов от Google и как подготовиться к 2022

- - - -
Матемаркетинг-21 пройдет 18-19 ноября в Москве, а также будет доступен в онлайне.
↪️ Программа и все подробности доступны на нашем сайте.
- - - -

А пока рекомендуем посмотреть доклад Николая Валиотти с Матемаркетинга прошлого года, в котором он рассказывает о BI-системах и разбирает подходы к разработке дашбордов.
Пятнично об R, so true 😅
Как и для чего экспортировать красивые отчеты из Jupyter Notebook в PDF? 📗

Мы недавно проводили опрос в канале и выяснили, что многие только начинают свой путь в аналитику. Сегодняшний пост будет полезен, ведь мы расскажем об одном из самых важных навыков аналитика — формировании красивого отчета о проделанной работе. Если вы специалист по анализу данных и вам нужно представить отчет для заказчика, если вы ищете работу и не знаете, как лучше всего оформить тестовое задание, если у вас есть учебные проекты, связанные с аналитикой и визуализацией данных, то скорее читайте дальше.

Часто заказчику смотреть на ваши результаты аналтики в Jupyter Notebook бывает проблематично, ведь важная информация часто теряется между строчками кода с подготовкой данных, импортом нужных библиотек и серией попыток реализовать ту или иную идею. В посте мы рассказывает про экспорт ноутбука в PDF-файл в формате LaTeX — это отличный вариант для итоговой визуализации. Он сэкономит время и будет выглядеть презентабельно: графики и таблицы сразу помещаются в документ, верстка отчета происходит автоматически, ячейки с кодом не мешают восприятию информации, а вам нужно лишь выделить важные элементы работы для экспорта и расставить заголовки.

В новой статье блога вы можете посмотреть, как правильно вставлять в отчет графики из Plotly, таблицы в формате LaTeX, а также как экспортировать документ без лишней информации — без кода и сообщений о работе ячейки.
Желаем всем красивых отчетов 👍
Офигенная работа с текстом и визуализацией информации: разбор структуры стенда-апа и причины продолжительного смеха над шуткой, очень круто сделано 😍

#визуализация
Продолжу делиться информацией о датавизе: техника визуализации данных о текстовых кластерах и классный интерактивный пример на d3.js (пощелкайте там справа в селекторе Order)

#dataviz
Немного о моем сегодняшнем выступлении на SmartData: хорошая новость, оно будет доступно бесплатно всем желающим 🤓

Как посмотреть выступление?
1. Для просмотра нужно зарегистрироваться на сайте конференции, выбрав вариант билета COMMUNITY DAY.
2. Затем в 20:00 перейти на сайт трансляции и запустить ее.
3.🍿🍿🍿
Туториал от Databricks по использованию Apache Spark на Databricks.

#ссылка
Эфир с Алексеем Колоколовым

Не успел вчера сделать доклад на SmartData, как в субботу иду на прямой эфир в Инстаграме к Алексею Колоколову. Поговорим о жизни, проектах, карьере, аналитике и немного обо мне.

Алексей — тренер, основатель Института бизнес-аналитики и сообщества «Клуб анонимных аналитиков», автор книги «Дашборд для директора».

Подключайтесь в субботу, 16 октября, в 12.00, будет интересно.
Я уже рассказывал об этом у себя в инстаграме (подпишитесь, чтобы не пропустить), а эфир будет совместно с аккаунтом инстаграма Алексея.
Squid Game retention rate на d3.js

Ничего особенного, просто собрал retention rate «Игры в кальмара» на d3.js.

Осторожно: спойлеры! 🍿🍿🍿
Партнерство Tableau и Looker (Google)
На прошлой неделе Tableau объявил о партнерстве с Google и Looker в контексте Self-service аналитики, новость сама по себе очень интересная. Казалось бы, два конкурента в вопросах BI. Однако, кажется, Google в большей степени рассматривает Looker в качестве семантического слоя для описания данных в хранилище и видит перспективу именно в LookML, тогда как визуализацию данных можно отдать Tableau.

Я часто привожу ссылку на блог Benn Stancil, и сейчас в блоге есть соответствующая статья на этот счет: BI is dead.

А в статье любопытная цитата:
Looker choosing to partner with Tableau makes particular sense because Looker’s always been a transformation tool first, and a consumption tool second. Looker’s crown jewel is LookML; Tableau’s is visualization. I’d speculate that Looker originally built its visualization tooling in large part so that they could market and sell the value of LookML, rather than the other way around. By launching this integration, Looker is simply doubling down on that long-standing identity.

#ссылка
Ну, что, где ты и кто ты, пятитысячный подписчик? 🙂

На конференции SmartData у нас была очень интересная и живая дискуссия с приглашенным экспертом Юлией Чертковой, которая руководит направлением Big Data в Яндексе. Очень жаль, что дискуссия не записалась, так как в рамках нее мы говорили много про self-service, да и в целом про дискуссию аналитиков.

В связи с чем, несколько моментов:
1) Полезная ссылка от Юли по теме (ресурс по ссылкам на bi и self-service у нас, конечно, все тот же)
2) Свой доклад на SmartData я уже выложил на Youtube, но ссылочку пришлю чуть позже. Организаторам, конечно, неземной респект за сумасшедшее качество видео. 👏👏
3) Мне очень понравилась живая дискуссия с экспертом по теме, в рамках которой можно обсудить любопытные вопросы/актуальные темы, а сегодня Telegram позволяет устраивать классные голосовые и видео-чаты 🤔, поэтому опрос для моих самых лучших подписчиков ниже 🙂

P.S. Скоро также пришлю результаты опроса про аудиторию канала (там надо немного перевзвесить тех, кто пришел на результаты посмотреть, иначе непонятно).
1
Продолжаем с визуализацией кластеризации. На этот раз визуализация классного алгоритма DBSCAN. Там же, кстати, и визуализация метода К-средних своя имеется.

DBSCAN, наверное, на ряду со Spectral Clustering нужно посвятить отдельную статью для рассказа.

#ссылка #визуализация
Дебют на Хабре
Свою корпоративную активность на Хабре начали со статьи про использование serverless архитектуры для построения аналитики на данных AmoCRM в Яндекс.Облаке.

С моей точки зрения, в Облаке достаточно легко и просто разобраться, бОльшая часть привычных сервисов доступны, а бонусом является управляемый в облаке Clickhouse.

Так что, читайте, шэрьте, плюсуйте!