Forwarded from Reveal the Data
Подготовил новый выпуск «Лайфхаков в Табло».
0:00 — Как сделать удобную цветовую легенду
3:00 — Как подписать точки на графике по условию
7:12 — Как избежать проблем при работе с Табло на Windows
⚠️ Про последний пункт даже написал заметку. Он очень важен для тех, кто работает с Windows и с размером шрифта в системе больше 100%.
#лайфхаки
0:00 — Как сделать удобную цветовую легенду
3:00 — Как подписать точки на графике по условию
7:12 — Как избежать проблем при работе с Табло на Windows
⚠️ Про последний пункт даже написал заметку. Он очень важен для тех, кто работает с Windows и с размером шрифта в системе больше 100%.
#лайфхаки
YouTube
Лайфхаки Tableau: Адаптивная легенда, Подписи по условию, Tableau & Windows
0:00 — Как сделать удобную легенду
3:00 — Как подписать точки на графике по условию
7:12 — Как избежать проблем при работе с Табло на Windows
3:00 — Как подписать точки на графике по условию
7:12 — Как избежать проблем при работе с Табло на Windows
Внутри сервиса Тинькофф Инвестиции расположилась целая социальная сеть инвесторов «Пульс», где люди делятся своими прогнозами, мыслями и планами. В материале рассказываем, как спарсить частотный словарь и построить биграммы по постам пользователей, разделив их по объёму инвестиционного портфеля.
https://leftjoin.ru/all/tinkoff-pulse-frequency-dict/
https://leftjoin.ru/all/tinkoff-pulse-frequency-dict/
Команда dbt запустила собственный курс по изучению, как ни странно, dbt.
Курс бесплатный.
Курс бесплатный.
Getdbt
dbt Fundamentals (dbt Studio)
Learn the foundational steps of transforming data in dbt with the dbt platform using dbt Studio. Start by connecting dbt to a data warehouse and Git repository, then explore key concepts like modeling, sources, testing, documentation, and deployment. Get…
В прошлый раз мы говорили о PowerBI, а на этой неделе рассмотрим дашборд в SAP Analytics Cloud, который сделал для нас Алексей Салынин – ведущий BI консультант SAPRUN.
Посмотрите на результат в материале блога и ответьте на два небольших вопроса.
Посмотрите на результат в материале блога и ответьте на два небольших вопроса.
YouTube
Обзор дашборда в SAP Analytics Cloud | Гайд по BI
Обзор дашборда, созданного в SAP Analytics Cloud на основе датасета Superstore.
Таймкоды:
00:00 — Приветствие, вводное слово про SAP Analytics Cloud (SAC)
01:20 — Структура дэшборда
02:16 — Набор данных, как источник: создание и просмотр
05:03 — Режим исследования…
Таймкоды:
00:00 — Приветствие, вводное слово про SAP Analytics Cloud (SAC)
01:20 — Структура дэшборда
02:16 — Набор данных, как источник: создание и просмотр
05:03 — Режим исследования…
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
32%
1
9%
2
9%
3
0%
4
9%
5
5%
6
18%
7
0%
8
9%
9
9%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
42%
1
0%
2
8%
3
0%
4
17%
5
8%
6
8%
7
4%
8
4%
9
8%
10
LEFT JOIN
Команда dbt запустила собственный курс по изучению, как ни странно, dbt. Курс бесплатный.
Прошел этот курс, делюсь своими впечатлениями.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.
В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:
А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.
Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.
В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:
SELECT sum(amount) FROM ... HAVING sum(amount)>0
А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.
Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.
В новом видео цикла гайдов по BI-системам поговорим о Redash. Это SQL-консоль, которую можно подключить к множеству различных источников данных, писать запросы и составлять по результатам отчёты-визуализации.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
YouTube
Как создать дашборд в Redash? | ЛУЧШИЙ Гайд по BI
✔️Получить гайд по BI-системам от команды LEFT JOIN: https://news.1rj.ru/str/leftjoin_helper_bot?start=YouTube-ApacheSuperset
В этом видео рассмотрим Redash: open source инструмент, представляющий собой SQL-консоль, который можно совершенно бесплатно развернуть у себя…
В этом видео рассмотрим Redash: open source инструмент, представляющий собой SQL-консоль, который можно совершенно бесплатно развернуть у себя…
👍1
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
30%
1
7%
2
7%
3
7%
4
11%
5
4%
6
15%
7
11%
8
4%
9
4%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
38%
1
8%
2
4%
3
13%
4
13%
5
13%
6
0%
7
8%
8
0%
9
4%
10
Бытует мнение, что аналитик в наше время может обойтись без уверенной математической базы (об этом гласят многие программы подготовки аналитиков). С моей же точки зрения тяжело рассуждать о вероятности оттока, не понимая теории вероятностей, сложно говорить о медиане и нормальности распределения, не зная математическую статистику, и точно не рассчитать градиент функции, не понимая математического анализа: список можно продолжать долго.
Но есть спасение — море бесплатных курсов от ведущих американских вузов! Собрал подборку по всему курсу математики и приложил дополнительный курс по R для анализа данных. Внутри курсы от Harvard, MIT и Georgia Tech. Даже если вы, как и я, уже изучили всё это 15 лет назад — повторение пройденного материала крайне полезно.
https://leftjoin.ru/all/free-education-for-analysts/
Но есть спасение — море бесплатных курсов от ведущих американских вузов! Собрал подборку по всему курсу математики и приложил дополнительный курс по R для анализа данных. Внутри курсы от Harvard, MIT и Georgia Tech. Даже если вы, как и я, уже изучили всё это 15 лет назад — повторение пройденного материала крайне полезно.
https://leftjoin.ru/all/free-education-for-analysts/
leftjoin.ru
Бесплатные курсы математики для аналитиков и инженеров данных
Конференция Coalesce от dbt: что посмотреть?
С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.
Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.
Мой шорт-лист докладов, которые рекомендую изучить:
* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов
@leftjoin
С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.
Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.
Мой шорт-лист докладов, которые рекомендую изучить:
* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов
@leftjoin
👍1
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Самое сложно при построении аналитического решения, это не построить решение, а сделать так, чтобы его использовали. Можно наделать много дашбордов, моделей и витрин данных, но никто не будет их использовать.
Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типо bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.
Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.
В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.
А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типо bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.
Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.
В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.
А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
Forwarded from Reveal the Data
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла новая версия Табло 2020.4 🎉
Много новых фич. Для меня самые важные такие:
Multiple marks layer support for maps
Будет можно выводить множество слоев на карты с разными типами объектов. Табло становится серьёзным конкурентом по гео-аналитике. В купе с гео-функциями, что выходили пару релизов назад, должна быть бомба. Ещё это открывает огромную возможность для костылей и накладывания графиков друг на друга. =)
Custom views tab
На сервере будет можно более удобно смотреть список сохранённых вью для отчета. Ура! Надеюсь, будет ещё какая-то аналитика когда эти вью ломаются при изменении книги.
Dynamic parameter improvements
Более тонкие настройки динамических параметров — можно будет настроить ограничения для значений, которые записываются в параметр при открытии книги.
#ссылка
Много новых фич. Для меня самые важные такие:
Multiple marks layer support for maps
Будет можно выводить множество слоев на карты с разными типами объектов. Табло становится серьёзным конкурентом по гео-аналитике. В купе с гео-функциями, что выходили пару релизов назад, должна быть бомба. Ещё это открывает огромную возможность для костылей и накладывания графиков друг на друга. =)
Custom views tab
На сервере будет можно более удобно смотреть список сохранённых вью для отчета. Ура! Надеюсь, будет ещё какая-то аналитика когда эти вью ломаются при изменении книги.
Dynamic parameter improvements
Более тонкие настройки динамических параметров — можно будет настроить ограничения для значений, которые записываются в параметр при открытии книги.
#ссылка
В новом видео по BI-системам говорим о дашборде, построенном в Google DataStudio: как подключить к дашборду датасорс из гугл-таблиц или из других источников, добавить новые фактоиды и настроить данные и визуализации.
Посмотрите на полученный результат, на оценки нашей команды в материале блога и ответьте на два небольших вопроса.
Посмотрите на полученный результат, на оценки нашей команды в материале блога и ответьте на два небольших вопроса.
YouTube
Обзор дашборда в Gooogle DataStudio | Гайд по BI
✔️Получить гайд по BI-системам от команды LEFT JOIN: https://news.1rj.ru/str/leftjoin_helper_bot?start=YouTube-ApacheSuperset
Обзор дашборда, созданного в Google DataStudio на основе датасета Superstore.
Автор дашборда: Регина Шайдуллина, Аналитик LEFT JOIN
Полезные…
Обзор дашборда, созданного в Google DataStudio на основе датасета Superstore.
Автор дашборда: Регина Шайдуллина, Аналитик LEFT JOIN
Полезные…
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
43%
1
5%
2
0%
3
0%
4
5%
5
19%
6
14%
7
0%
8
10%
9
5%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
44%
1
0%
2
0%
3
4%
4
4%
5
8%
6
12%
7
4%
8
8%
9
16%
10
Forwarded from Reveal the Data
Наташа Степанова, канал — @visualize_it, начала писать туториалы по библиотеке d3.js. Это отличная инициатива — хороших материалов по d3 на русском очень мало. Туториалы подойдут для тех кто знает основы html, css и js, но не работал с библиотекой и хочет не просто «копировать кусочки кода», а более глубоко разобраться как работает d3.
#ссылка
#ссылка
Telegram
Визуализируй это!
Привет, я Наташа (@gnykka) и это мой канал про программирование визуализаций данных и не только.
———
🕸️ slaylines.io | gnykka.io
———
🕸️ slaylines.io | gnykka.io
В рекламном кабинете ВКонтакте при публикации объявления есть функция автоматического подбора целевой аудитории, но можно пойти и другим путём –– загрузить файл с идентификаторами конкретных людей, которым нужно показать рекламу. В новом материале рассказываем, как написать парсер участников сообществ конкурентов для VK API и загрузить полученную аудиторию в рекламный кабинет.
Мы попробовали запускать объявления обоими способами: бонусом в конце материала сравниваем результаты и отвечаем на вопрос, какой метод подбора аудитории оказался выгоднее.
Мы попробовали запускать объявления обоими способами: бонусом в конце материала сравниваем результаты и отвечаем на вопрос, какой метод подбора аудитории оказался выгоднее.