Конференция Coalesce от dbt: что посмотреть?
С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.
Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.
Мой шорт-лист докладов, которые рекомендую изучить:
* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов
@leftjoin
С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.
Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.
Мой шорт-лист докладов, которые рекомендую изучить:
* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов
@leftjoin
👍1
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Самое сложно при построении аналитического решения, это не построить решение, а сделать так, чтобы его использовали. Можно наделать много дашбордов, моделей и витрин данных, но никто не будет их использовать.
Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типо bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.
Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.
В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.
А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типо bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.
Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.
В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.
А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
Forwarded from Reveal the Data
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла новая версия Табло 2020.4 🎉
Много новых фич. Для меня самые важные такие:
Multiple marks layer support for maps
Будет можно выводить множество слоев на карты с разными типами объектов. Табло становится серьёзным конкурентом по гео-аналитике. В купе с гео-функциями, что выходили пару релизов назад, должна быть бомба. Ещё это открывает огромную возможность для костылей и накладывания графиков друг на друга. =)
Custom views tab
На сервере будет можно более удобно смотреть список сохранённых вью для отчета. Ура! Надеюсь, будет ещё какая-то аналитика когда эти вью ломаются при изменении книги.
Dynamic parameter improvements
Более тонкие настройки динамических параметров — можно будет настроить ограничения для значений, которые записываются в параметр при открытии книги.
#ссылка
Много новых фич. Для меня самые важные такие:
Multiple marks layer support for maps
Будет можно выводить множество слоев на карты с разными типами объектов. Табло становится серьёзным конкурентом по гео-аналитике. В купе с гео-функциями, что выходили пару релизов назад, должна быть бомба. Ещё это открывает огромную возможность для костылей и накладывания графиков друг на друга. =)
Custom views tab
На сервере будет можно более удобно смотреть список сохранённых вью для отчета. Ура! Надеюсь, будет ещё какая-то аналитика когда эти вью ломаются при изменении книги.
Dynamic parameter improvements
Более тонкие настройки динамических параметров — можно будет настроить ограничения для значений, которые записываются в параметр при открытии книги.
#ссылка
В новом видео по BI-системам говорим о дашборде, построенном в Google DataStudio: как подключить к дашборду датасорс из гугл-таблиц или из других источников, добавить новые фактоиды и настроить данные и визуализации.
Посмотрите на полученный результат, на оценки нашей команды в материале блога и ответьте на два небольших вопроса.
Посмотрите на полученный результат, на оценки нашей команды в материале блога и ответьте на два небольших вопроса.
YouTube
Обзор дашборда в Gooogle DataStudio | Гайд по BI
✔️Получить гайд по BI-системам от команды LEFT JOIN: https://news.1rj.ru/str/leftjoin_helper_bot?start=YouTube-ApacheSuperset
Обзор дашборда, созданного в Google DataStudio на основе датасета Superstore.
Автор дашборда: Регина Шайдуллина, Аналитик LEFT JOIN
Полезные…
Обзор дашборда, созданного в Google DataStudio на основе датасета Superstore.
Автор дашборда: Регина Шайдуллина, Аналитик LEFT JOIN
Полезные…
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
43%
1
5%
2
0%
3
0%
4
5%
5
19%
6
14%
7
0%
8
10%
9
5%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
44%
1
0%
2
0%
3
4%
4
4%
5
8%
6
12%
7
4%
8
8%
9
16%
10
Forwarded from Reveal the Data
Наташа Степанова, канал — @visualize_it, начала писать туториалы по библиотеке d3.js. Это отличная инициатива — хороших материалов по d3 на русском очень мало. Туториалы подойдут для тех кто знает основы html, css и js, но не работал с библиотекой и хочет не просто «копировать кусочки кода», а более глубоко разобраться как работает d3.
#ссылка
#ссылка
Telegram
Визуализируй это!
Привет, я Наташа (@gnykka) и это мой канал про программирование визуализаций данных и не только.
———
🕸️ slaylines.io | gnykka.io
———
🕸️ slaylines.io | gnykka.io
В рекламном кабинете ВКонтакте при публикации объявления есть функция автоматического подбора целевой аудитории, но можно пойти и другим путём –– загрузить файл с идентификаторами конкретных людей, которым нужно показать рекламу. В новом материале рассказываем, как написать парсер участников сообществ конкурентов для VK API и загрузить полученную аудиторию в рекламный кабинет.
Мы попробовали запускать объявления обоими способами: бонусом в конце материала сравниваем результаты и отвечаем на вопрос, какой метод подбора аудитории оказался выгоднее.
Мы попробовали запускать объявления обоими способами: бонусом в конце материала сравниваем результаты и отвечаем на вопрос, какой метод подбора аудитории оказался выгоднее.
Периодически рассказываю о новых каналах, которые меня заинтересовывают, сегодня хочу порекомендовать канал @R4marketing.
Автор канала — Алексей Селезнёв, руководитель отдела аналитики в Netpeak.
Ранее большую часть анализа данных я делал на языке R и буквально пару лет назад перешел на Python, однако R - очень важный язык программирования для анализа данных. И канал Алексея как раз посвящен зыку R. На данный момент там собрано огромное количество русскоязычных материалов по изучения R:
- Статьи
- Видео уроки
- Вебинары и доклады с конференций
- Заметки по R
- Книги
- Новости и релизы из мира R
В канале опубликовано более 450 ссылок на русскоязычные материалы по R.
Если вам интересна и актуальна тема языка R, обязательно подписывайтесь!
Автор канала — Алексей Селезнёв, руководитель отдела аналитики в Netpeak.
Ранее большую часть анализа данных я делал на языке R и буквально пару лет назад перешел на Python, однако R - очень важный язык программирования для анализа данных. И канал Алексея как раз посвящен зыку R. На данный момент там собрано огромное количество русскоязычных материалов по изучения R:
- Статьи
- Видео уроки
- Вебинары и доклады с конференций
- Заметки по R
- Книги
- Новости и релизы из мира R
В канале опубликовано более 450 ссылок на русскоязычные материалы по R.
Если вам интересна и актуальна тема языка R, обязательно подписывайтесь!
Любопытный способ работы в Excel. А я на следующей неделе расскажу, как собирал дашборд в Excel на основе Superset без какого-либо Python и даже почти без макросов 🙂
Forwarded from Я у мамы аналитик (Stas Valuev)
Пропусти я такую новость - плакал бы потом горькими слезами.
Ребятки запилили Jupiter Notebook в Excel'ке. Действительно, зачем выбирать между Python и аналитикой в уютных таблицах (не будем никому рассказывать, что есть еще BI), давайте "замочим" VBA и совместим все в один инструмент (а что, а вдруг).
Если серьёзно, это, конечно, на грани добра и зла, но может стать подспорьем для тех, кто только начинает переходить на сторону питона. Можно даже придумать пару боевых кейсов, когда может потребоваться экспорт графиков из ноутбука на лист Excel - для редких визуализаций или прогнозирования, к примеру (если вкусы весьма специфичны).
🔗 Ссылка
Ребятки запилили Jupiter Notebook в Excel'ке. Действительно, зачем выбирать между Python и аналитикой в уютных таблицах (не будем никому рассказывать, что есть еще BI), давайте "замочим" VBA и совместим все в один инструмент (а что, а вдруг).
Если серьёзно, это, конечно, на грани добра и зла, но может стать подспорьем для тех, кто только начинает переходить на сторону питона. Можно даже придумать пару боевых кейсов, когда может потребоваться экспорт графиков из ноутбука на лист Excel - для редких визуализаций или прогнозирования, к примеру (если вкусы весьма специфичны).
🔗 Ссылка
PyXLL
Python Jupyter Notebooks in Excel
Use Python Jupyter Notebooks right in Excel. Python Excel integration with Jupyter is a massive leap forwards for data analysis, modelling and dashboards.
Для прохождения сертификации Tableau Desktop Associate я наткнулся на курсы elearning от Tableau. А получив сертификацию, подумал — какие программы обучения предлагают другие BI-инструменты?
Так как первым делом мне под руку попались обучающие гайды по PowerBI, в новом материале хочу поделиться собственным опытом сравнения программ обучения Tableau и PowerBI: какие отличия в оформлении и структуре материалов, какой дизайн отчётов получается в гайдах обоих систем и как проверяются полученные знания.
Читайте результаты сравнения в новом материале блога.
Так как первым делом мне под руку попались обучающие гайды по PowerBI, в новом материале хочу поделиться собственным опытом сравнения программ обучения Tableau и PowerBI: какие отличия в оформлении и структуре материалов, какой дизайн отчётов получается в гайдах обоих систем и как проверяются полученные знания.
Читайте результаты сравнения в новом материале блога.
leftjoin.ru
Сравнение программ обучения Tableau и PowerBI
Для отслеживания самых заметных мероприятий посвященных Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям, связанным с обработкой данных, рекомендую подписаться на канал "Data online events & Moscow meetups"
Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol
👉🏻 Подписаться на t.me/data_events
Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol
👉🏻 Подписаться на t.me/data_events
Telegram
Data Events
Ивенты по Big Data, DE, BI, AI, ML, DS, DA, etc
Спец подканалы:
@AI_meetups
@DE_events
@BI_events
@datathons
@data_career
@devetups
см также @agile_events
#Календарь bit.ly/3oLMmDc
tgstat.ru/channel/@data_events
contacts: @black_titmouse
Спец подканалы:
@AI_meetups
@DE_events
@BI_events
@datathons
@data_career
@devetups
см также @agile_events
#Календарь bit.ly/3oLMmDc
tgstat.ru/channel/@data_events
contacts: @black_titmouse
Как бы ни шеймили Excel, он по прежнему остаётся одним из основных инструментов в работе аналитика. Раньше я работал с ним на протяжении многих лет: у меня богатый опыт в написании макросов, автоматизации отчётности, расчётах всевозможных показателей эффективности.
Поэтому сегодня видео для максимально широкой аудитории: дашборд в Excel на примере датасета Superstore. Все фишки, детали, лайфхаки и нюансы в ролике на 40 минут перед самым Новым годом. Подарок начинающему аналитику. 🙂
Видео получилось интересным, потому что раскрывает всю мощь этого инструмента для работы с таблицами. А ещё я совершенно бесплатно делюсь рецептами эффективного построения дашборда, которые сходу не просто загуглить.
Посмотрите на полученный результат, на оценки нашей команды в материале блога и ответьте на два небольших вопроса.
#гайдпоbi
Поэтому сегодня видео для максимально широкой аудитории: дашборд в Excel на примере датасета Superstore. Все фишки, детали, лайфхаки и нюансы в ролике на 40 минут перед самым Новым годом. Подарок начинающему аналитику. 🙂
Видео получилось интересным, потому что раскрывает всю мощь этого инструмента для работы с таблицами. А ещё я совершенно бесплатно делюсь рецептами эффективного построения дашборда, которые сходу не просто загуглить.
Посмотрите на полученный результат, на оценки нашей команды в материале блога и ответьте на два небольших вопроса.
#гайдпоbi
YouTube
Как создать дашборд в Excel? | ЛУЧШИЙ Гайд по BI
✔️Получить гайд по BI-системам от команды LEFT JOIN: https://news.1rj.ru/str/leftjoin_helper_bot?start=YouTube-ApacheSuperset
На Excel я собаку съел: проработав много лет аналитиком, при помощи этого инструмента я автоматизировал маркетинговую отчетность, рассчитывал…
На Excel я собаку съел: проработав много лет аналитиком, при помощи этого инструмента я автоматизировал маркетинговую отчетность, рассчитывал…
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
25%
1
7%
2
0%
3
4%
4
7%
5
7%
6
14%
7
18%
8
14%
9
4%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
35%
1
8%
2
8%
3
4%
4
12%
5
8%
6
8%
7
0%
8
12%
9
8%
10
Forwarded from Datalytics
Большая подборка материалов, посвященных машинному обучению, анализу данных и применению алгоритмов ML в бизнесе
https://habr.com/ru/article/533242/
https://habr.com/ru/article/533242/
Хабр
Библиотека данных: коллекция интересных хабрапостов про Data Science
С каждым годом сфера Data Science обрастает новыми методиками, терминами и направлениями. К счастью, у нас есть почти готовая энциклопедия по этой теме, которую год за годом кропотливо наполняло сообщество Хабра. Есть, правда, проблема: материалы сообщества…
Наш зритель на YouTube (кстати, подписывайтесь на канал) Людмила Курьянова предложила модифицировать формирование графика «Динамика прибыли», чтобы отказаться от макросов.
Вот её комментарий:
Добрый день!
Хороший дашборд, спасибо за идеи.
Мои рекомендации для Графика «Динамика прибыли» (не используя макрос) -
Рядом с построенной сводной создать таблицу с данными, ссылающимися на сводную. Получить таким образом Поля год, месяц, месяц-год, прибыль. Для столбцов текущее значение и значение прошлого периода использовать формулу с условием (проверять на равенство ячейку с месяцем-год ‘Pivot tables’$A$4, и, соответственно, будут подтягиваться либо значение, либо НД()). То есть, если будет меняться значение на срезе Месяц-Год, значения в столбцах Текущее значение и Прош. значение будут пересчитаны. Далее построить 3 графика- Прибыль без маркеров, для текущ. и прош.значений выбрать график с маркерами и далее настроить внешний вид маркера. Исходную сводную оставить подключенной только к срезу Регион.
Мне персонально не очень хотелось отходить от концепции «все на сводных таблицах», но такой сценарий, конечно, имеет право на жизнь. Выкладываем обновленную версию Excel-книги на GitHub.
Вот её комментарий:
Добрый день!
Хороший дашборд, спасибо за идеи.
Мои рекомендации для Графика «Динамика прибыли» (не используя макрос) -
Рядом с построенной сводной создать таблицу с данными, ссылающимися на сводную. Получить таким образом Поля год, месяц, месяц-год, прибыль. Для столбцов текущее значение и значение прошлого периода использовать формулу с условием (проверять на равенство ячейку с месяцем-год ‘Pivot tables’$A$4, и, соответственно, будут подтягиваться либо значение, либо НД()). То есть, если будет меняться значение на срезе Месяц-Год, значения в столбцах Текущее значение и Прош. значение будут пересчитаны. Далее построить 3 графика- Прибыль без маркеров, для текущ. и прош.значений выбрать график с маркерами и далее настроить внешний вид маркера. Исходную сводную оставить подключенной только к срезу Регион.
Мне персонально не очень хотелось отходить от концепции «все на сводных таблицах», но такой сценарий, конечно, имеет право на жизнь. Выкладываем обновленную версию Excel-книги на GitHub.
GitHub
leftjoin/Superstore-Dashboard-upd.xlsx at master · valiotti/leftjoin
LEFTJOIN.ru public repository. Contribute to valiotti/leftjoin development by creating an account on GitHub.