Справочные руководства по визуализации данных
Хочу поделиться с вами интересной подборкой материалов, которые призваны помочь в выборе типа диаграммы для конкретной задачи.
Как написано на странице: коллекция инструментов для выбора диаграмм визуализации данных, справочных руководств, шпаргалок, веб-сайтов и инфографики о передовых методах проектирования визуализации данных
Не забывайте поделиться с коллегами!
Хочу поделиться с вами интересной подборкой материалов, которые призваны помочь в выборе типа диаграммы для конкретной задачи.
Как написано на странице: коллекция инструментов для выбора диаграмм визуализации данных, справочных руководств, шпаргалок, веб-сайтов и инфографики о передовых методах проектирования визуализации данных
Не забывайте поделиться с коллегами!
👍 коллегам отправлено
🔥 никому не покажу
Cool Infographics
Data Visualization Reference Guides — Cool Infographics
Collection of data visualization chart choosers, reference guides, cheat sheets, websites and infographics about dataviz design best practices.
🔥11🤩7
Судя по реакциям на прошлый разбор вакансий BI специалистов эта тема вам интересна. На следующей неделе планирую опубликовать новый разбор с формулировками из резюме
👍13❤1🔥1
Сегодня HR коллеги обратились просьбой помочь подготовить для них опросник на позицию аналитика DWH. В процессе подготовки вопросов решил добавить блок про моделирование баз данных.
Если готовитесь к собеседованию освежите знания про следующие модели:
▫️концептуальную
▫️логическую
▫️физическую
Чтобы коллегам было удобно проводить общение с соискателями помимо возможного варианта ответа на вопрос я прилагаю материал, где можно немного погрузиться в тему. Хочу поделиться с вами одной из таких ссылок.
Если готовитесь к собеседованию освежите знания про следующие модели:
▫️концептуальную
▫️логическую
▫️физическую
Чтобы коллегам было удобно проводить общение с соискателями помимо возможного варианта ответа на вопрос я прилагаю материал, где можно немного погрузиться в тему. Хочу поделиться с вами одной из таких ссылок.
Если интересно что-то узнать про хранилища – накидайте вопросов в комментариях. Там очень много тем для обсуждения.
🔥12👍2
Советы для собеседования
Участвую в собеседованиях на позицию аналитика DWH. Что хочется отметить по промежуточному итогу общения с несколькими десятками человек:
1️⃣ Повторите теорию
2️⃣ Уважайте тех с кем общаетесь
3️⃣ Напитки во время общения
4️⃣ Если не знаете ответа на вопрос
5️⃣ Не волнуйтесь
6️⃣ Решение SQL задач
7️⃣ Рассуждайте
8️⃣ Не отвлекайтесь на переписку и звонки
9️⃣ Используйте ПК или ноутбук для встречи
Как всегда - если было полезно 🔥
Участвую в собеседованиях на позицию аналитика DWH. Что хочется отметить по промежуточному итогу общения с несколькими десятками человек:
1️⃣ Повторите теорию
Не стоит этим пренебрегать. С большой вероятностью вам будут заданы вопросы, которые относятся к теоретической подготовке.
2️⃣ Уважайте тех с кем общаетесь
Выберите место, чтобы освещение не было фронтальным и вас было хорошо видно в кадре. Если за вами находится окно и светит солнце, вместо вас в кадре будет белое пятно
3️⃣ Напитки во время общения
Если хочется попить воды - приготовьте стакан или иную емкость, не используйте пластиковые бутылки
4️⃣ Если не знаете ответа на вопрос
Лучше честно сказать об этом. Не стоит тратить время собеседования, вы можете не показать своих реальных знаний пытаясь подобрать правильный ответ на вопрос, в котором не ориентируетесь
5️⃣ Не волнуйтесь
Задача вопросов понять ваш уровень знаний, а не показать все на встрече, что вы не знаете чего-то
6️⃣ Решение SQL задач
При решении задачи по SQL проговорите шаги, которые планируете предпринять перед тем, как начнете писать код. Так вы покажите какова ваша логика в решении предложенной задачи. Уточните какая база данных используется, т.к. могут быть свои особенности синтаксиса у конкретных СУБД
7️⃣ Рассуждайте
Не стесняйтесь рассуждать в процессе ответов на ваши вопросы. На собеседовании, как правило, от вас не требуется однозначный ответ как на экзамене. Даже не зная изначально ответа в процессе рассуждений вы можете прийти к нему, либо ваши рассуждения покажут, что вы можете найти решение, но вам нужно дополнительное время и возможно поиск информации
8️⃣ Не отвлекайтесь на переписку и звонки
Отключите на время собеседования рабочие и иные чаты, чтобы они не отвлекали вас от собеседования
9️⃣ Используйте ПК или ноутбук для встречи
Старайтесь подключаться к техническим собеседованиям с ноутбука или компьютера. Скорее всего придется решать задачу, возможно нарисовать схему и т.п. На телефоне это будет не так удобно и не всегда возможно
Как всегда - если было полезно 🔥
🔥25👎1
Как устроены BI системы
❓ Вы когда ни будь задумывались, что происходит в вашей BI системе в тот момент, когда вы выбираете один из вариантов в фильтре или через виджет смотрите как изменяются другие, оставляя только выбранный вариант?
На самом деле «под капотом» запускаются процессы, которые обращаются к массиву данных, передают в него выбранный вариант, происходит фильтрация данных, возвращается только необходимый срез, который BI система отрисовывает в виджетах.
Может быть два варианта, как BI система обращается к данным.
1️⃣ Первый, при каждом изменении на дашборде, которое настроено на фильтрацию значений генерируется и отправляется к базе данных запрос, который возвращает результат (пример Apache Superset)
2️⃣ Второй, все данные, которые использует дашборд (назовем их датасетом) хранятся в оперативной памяти и из такого датасета после фильтрации возвращаются на дашборд (пример Power BI, основной его режим работы)
В первом случае каждое обращение создает запрос к базе данных, а значит при большом количестве запросов сервер базы данных должен быть в состоянии их отработать. Во втором, чтобы данные были актуальными необходимо обновлять датасет в памяти. Также первый вариант может уступать по скорости второму.
В следующий раз планирую рассказать, как BI системы отображают отдельные виджеты. Если интересно, накидайте 🔥
❓ Вы когда ни будь задумывались, что происходит в вашей BI системе в тот момент, когда вы выбираете один из вариантов в фильтре или через виджет смотрите как изменяются другие, оставляя только выбранный вариант?
На самом деле «под капотом» запускаются процессы, которые обращаются к массиву данных, передают в него выбранный вариант, происходит фильтрация данных, возвращается только необходимый срез, который BI система отрисовывает в виджетах.
Может быть два варианта, как BI система обращается к данным.
1️⃣ Первый, при каждом изменении на дашборде, которое настроено на фильтрацию значений генерируется и отправляется к базе данных запрос, который возвращает результат (пример Apache Superset)
2️⃣ Второй, все данные, которые использует дашборд (назовем их датасетом) хранятся в оперативной памяти и из такого датасета после фильтрации возвращаются на дашборд (пример Power BI, основной его режим работы)
В первом случае каждое обращение создает запрос к базе данных, а значит при большом количестве запросов сервер базы данных должен быть в состоянии их отработать. Во втором, чтобы данные были актуальными необходимо обновлять датасет в памяти. Также первый вариант может уступать по скорости второму.
Если приходится много работать с одной BI системой изучите ее архитектуру, как она работе с технической стороны.
В следующий раз планирую рассказать, как BI системы отображают отдельные виджеты. Если интересно, накидайте 🔥
🔥15
Как попадают в BI?
Лично я попал в BI в результате того, что для решения задач при разработке систем сквозной аналитики под требования конкретного заказчика возникала необходимость строить дашборды, как результат проделанной работы (которая по большей части остается не видимой, как-то настройка выгрузок по API в хранилище, разработка модели, подготовка данных и т.п.)
Встречал рассказы коллег, что в BI приходят как в первую специализацию работы с данными в результате того, что на работе появилось желание представить данные с новой стороны. Условно не табличками, к которым все привыкли, а в виде интерактивного дашборда.
Кто-то попадает после курсов, когда только ищет, что ему интересно.
Также встречал многих, для кого BI оказалась одна из промежуточных специализаций и человек после некоторого времени решил пойти в инженеры данных или углубится в анализ данных.
Для меня сегодня BI это одно из направлений, которое мне интересно, но также я работаю и изучаю хранилища данных (от задач аналитика до разработчика), инжиниринг данных.
Лично я попал в BI в результате того, что для решения задач при разработке систем сквозной аналитики под требования конкретного заказчика возникала необходимость строить дашборды, как результат проделанной работы (которая по большей части остается не видимой, как-то настройка выгрузок по API в хранилище, разработка модели, подготовка данных и т.п.)
Встречал рассказы коллег, что в BI приходят как в первую специализацию работы с данными в результате того, что на работе появилось желание представить данные с новой стороны. Условно не табличками, к которым все привыкли, а в виде интерактивного дашборда.
Кто-то попадает после курсов, когда только ищет, что ему интересно.
Также встречал многих, для кого BI оказалась одна из промежуточных специализаций и человек после некоторого времени решил пойти в инженеры данных или углубится в анализ данных.
Для меня сегодня BI это одно из направлений, которое мне интересно, но также я работаю и изучаю хранилища данных (от задач аналитика до разработчика), инжиниринг данных.
Интересно узнать вашу историю, как вы попали в BI. Расскажите в комментариях👇
👍3
Путь данных до дашборда
Можно выделить два основных пути, по которым данные попадают на дашборд
1️⃣ Первый, самый короткий – напрямую из источника. В этом случае используется или встроенный коннектор к одной из внешних систем, в которой хранятся данные или API такой системы.
➕ Можно быстро настроить выгрузку данных без участия дата инженеров, нет необходимости в хранилище данных
➖ При значительном объеме данных процесс их получения в BI систему может занимать длительное время, а в некоторых случаях невозможно получить весь необходимый объем данных. Не ко всем системам есть встроенные коннекторы в BI системах
2️⃣ Второй, сложный, но более правильный – организовать выгрузку из источника в хранилище данных, из которого забирать из в BI инструмент. При такой реализации к внешней системе необходимо организовать подключение и регулярное извлечение информации. После получения может потребоваться ее трансформация, затем сохранение в хранилище данных.
➕ Стабильное решение, данные всегда готовы к времени обновления данных в BI системе. Можно организовать инкрементальную загрузку, что снизит нагрузку на внешнюю систему. Также проще обходить ограничения, если они присутствуют в API внешней системы.
➖ Сложное решение. Требует участия инженера данных и организации хранилища данных. Необходим мониторинг обновления и качества данных.
❓ Какой вариант вы используете чаще всего на своих проектах?
Можно выделить два основных пути, по которым данные попадают на дашборд
1️⃣ Первый, самый короткий – напрямую из источника. В этом случае используется или встроенный коннектор к одной из внешних систем, в которой хранятся данные или API такой системы.
➕ Можно быстро настроить выгрузку данных без участия дата инженеров, нет необходимости в хранилище данных
➖ При значительном объеме данных процесс их получения в BI систему может занимать длительное время, а в некоторых случаях невозможно получить весь необходимый объем данных. Не ко всем системам есть встроенные коннекторы в BI системах
2️⃣ Второй, сложный, но более правильный – организовать выгрузку из источника в хранилище данных, из которого забирать из в BI инструмент. При такой реализации к внешней системе необходимо организовать подключение и регулярное извлечение информации. После получения может потребоваться ее трансформация, затем сохранение в хранилище данных.
➕ Стабильное решение, данные всегда готовы к времени обновления данных в BI системе. Можно организовать инкрементальную загрузку, что снизит нагрузку на внешнюю систему. Также проще обходить ограничения, если они присутствуют в API внешней системы.
➖ Сложное решение. Требует участия инженера данных и организации хранилища данных. Необходим мониторинг обновления и качества данных.
В зависимости от стоящей задачи можно выбрать наиболее подходящий вариант. Например, для разового запроса, подойдет первый, если стоит задача разработать дашборд с несколькими источниками, то лучше использовать второй. Также первый вариант можно использовать для создания MVP (например, для первого показа и обсуждения с заказчиком)
❓ Какой вариант вы используете чаще всего на своих проектах?
👍5🔥2
39 исследований человеческого восприятия
Сегодня хочу поделиться с вами материалом о методах визуализации и их восприятии. Автор Кеннеди Эллиотт, графический редактор в The Washington Post.
В статье представлена выжимка из психологических исследований, изученных автором. Если захотите углубиться в исследования полностью, чтобы познакомиться с полными выводами, в конце материала есть ссылки на них.
@analyst_ivanov
Сегодня хочу поделиться с вами материалом о методах визуализации и их восприятии. Автор Кеннеди Эллиотт, графический редактор в The Washington Post.
В статье представлена выжимка из психологических исследований, изученных автором. Если захотите углубиться в исследования полностью, чтобы познакомиться с полными выводами, в конце материала есть ссылки на них.
@analyst_ivanov
Оди. О дизайне
39 исследований человеческого восприятия | Психология — Оди
Чем больше в гистограммах компонентов, тем сложнее оценить их пропорции. Чтобы обработать каждый новый компонент в гистограмме, читателю требуются...
🔥10❤2
Изменения в канале
В ближайшее время у канала изменится название,а чуть позже и привычный аватар.
Остаемся на связи! Впереди много нового и интересного
В ближайшее время у канала изменится название,
Канал станет еще интереснее наполнен большим количеством практических советов и кейсами из моего личного опыта. Тематика канала станет шире. Уверен, от этого его польза для вас увеличится.
Остаемся на связи! Впереди много нового и интересного
👍17🔥3
Кругозор и навыки BI специалиста
❓ Возможно вы заметили, что я стараюсь использовать формулировку
На многих проектах очень сложно разделить аналитика и разработчика, т.к. задачи у них сильно пересекаются. Вам может «повезти» и вы будете заниматься только «рисованием» дашбордов по готовым моделям, но такое бывает крайне редко.
Как правило данные нужно подготовить, построить модель и уже потом строить дашборд. Здесь потребуется навыки инженера данных и немного специалиста по хранилищам. Даже если лично не придется что-то делать, то поставить задачу разработчикам нужно, а как это сделать если нет понимания, каким образом они решают такие задачи?
Работая с источниками возникает запрос на работу с API. Погружаясь в эту тему приходит понимание, что свои запросы нужно как-то тестировать, а как? Что делать с результатом, полученным в JSON формате? И так далее.
Предположим с источниками разобрались, теперь требуется как-то полученные данных хранить. Нужно организовать модель данных. Что можно сделать: построить звезду или снежинку, а может быть для вашего BI инструмента лучше большая плоская денормализованная таблица?
Я привел лишь несколько наиболее часто возникающих задач и того, что может понадобиться для их решения. Как видите для BI специалиста важно знать и понимать процессы и технологии смежных специализаций.
Как я могу самостоятельно изучать то, о чем написано выше? На самом деле это не сложно начать делать.
Если вы совмещаете роль BI аналитика и BI разработчика, поставьте 💯 , если вы решаете задачи только BI аналитика 🔥 . Если у вас иная роль, то выберите один из других вариантов
BI на практике | @make_bi
❓ Возможно вы заметили, что я стараюсь использовать формулировку
BI специалист, а не привычные BI аналитик или BI разработчик. Почему?На многих проектах очень сложно разделить аналитика и разработчика, т.к. задачи у них сильно пересекаются. Вам может «повезти» и вы будете заниматься только «рисованием» дашбордов по готовым моделям, но такое бывает крайне редко.
Как правило данные нужно подготовить, построить модель и уже потом строить дашборд. Здесь потребуется навыки инженера данных и немного специалиста по хранилищам. Даже если лично не придется что-то делать, то поставить задачу разработчикам нужно, а как это сделать если нет понимания, каким образом они решают такие задачи?
Работая с источниками возникает запрос на работу с API. Погружаясь в эту тему приходит понимание, что свои запросы нужно как-то тестировать, а как? Что делать с результатом, полученным в JSON формате? И так далее.
Предположим с источниками разобрались, теперь требуется как-то полученные данных хранить. Нужно организовать модель данных. Что можно сделать: построить звезду или снежинку, а может быть для вашего BI инструмента лучше большая плоская денормализованная таблица?
Я привел лишь несколько наиболее часто возникающих задач и того, что может понадобиться для их решения. Как видите для BI специалиста важно знать и понимать процессы и технологии смежных специализаций.
Как я могу самостоятельно изучать то, о чем написано выше? На самом деле это не сложно начать делать.
Попробуйте найти открытые API, где можно подключиться и запросами извлекать данные. Сначала через Postman, например, затем напишите скрипт на Python. Затем автоматизируйте его запуск по расписанию. Следующим этапом усложните, чтобы он не только получал данные, но и сохранял их в базе данных.
Если вы совмещаете роль BI аналитика и BI разработчика, поставьте 💯 , если вы решаете задачи только BI аналитика 🔥 . Если у вас иная роль, то выберите один из других вариантов
BI на практике | @make_bi
💯35🔥5
На какой позиции вы сейчас работаете
Anonymous Poll
3%
стажёр
11%
младший специалист (junior)
25%
специалист (middle)
9%
старший специалист (senior)
9%
ведущий специалист
7%
главный специалист
14%
руководитель / team lead
23%
просто посмотрю
Изменения в канале
С сегодняшнего дня у канала изменилось название. Оно более емко и полно отвечает тому, что будет в нем размещаться.
Также изменилась и ссылка на канал. Если вы его добавляли в папки, проверьте, чтобы там были актуальные сведения
BI на практике | @make_bi
С сегодняшнего дня у канала изменилось название. Оно более емко и полно отвечает тому, что будет в нем размещаться.
Основные материалы будут направлены на решение практических задач при внедрении BI и/или разработке дашбордов. Постараюсь делать материалы такими, чтобы их можно было применять на любой BI системе.
Также изменилась и ссылка на канал. Если вы его добавляли в папки, проверьте, чтобы там были актуальные сведения
BI на практике | @make_bi
👍27🔥3
В последнее время пришлось совмещать на проектах роли аналитика и разработчика DWH, решать задачи дата инженера. По этой причине на канале была пауза в публикациях. На этой неделе возвращаюсь к своему плану работы с ним.
Завтра поделюсь своим опытом оптимизации данных для дашбордов
👍26
Оптимизация данных для дашборда
С чего следует начать оптимизацию? В зависимости от вашего BI инструмента может быть два варианта:
Работу с Power BI пока оставим, рассмотрим первый вариант: денормализованная плоская таблица.
1️⃣ Что можно сделать с таблицей? Начните с определения уровня гранулярности. Если ваш дашборд отображает данные в разрезе категорий товаров, то не стоит в витрине хранить данные в разрезе каждого товара. Постройте витрину с агрегатами на уровне категорий.
2️⃣ Далее посмотрите на то, как хранятся данные. Например, если работаете со столбцом, в котором содержится дата, то его тип данных должен быть соответствующим. Можно преобразовать к нужному типу в запросе, но лучше позаботиться об этом на уровне исходных данных.
3️⃣ Следующий совет больше про Data Quality, но его можно рассмотреть и в оптимизации. Изучите данные в столбцах, по которым происходят расчеты, чтобы в них не было значений NULL, пустых строк или строк из одного или N пробелов.
4️⃣ Если вернуться к созданию витрины, то лучше если это буде физическая таблица или материализованное представление. В этом случае исходные данные на стороне БД не будут рассчитываться каждый раз при обращении (обратная ситуация с обычными view, вьюшками или представления, которые не что иное как обычный сохраненный SQL запрос). Но не забывайте обновлять в них данные (в обычных view этого не требуется).
5️⃣ Не считайте использование CTE решением, которое ускоряет запросы. Они могут помочь в этом, но должны соблюдаться определенные условия.
6️⃣ Чем меньше объединений в запросе – тем быстрее он отработает. Ваша витрина должна содержать все данные, необходимые для дашборда, проработайте этот вопрос.
7️⃣ Заключительное предложение: если у вас действительно большие объемы данных, то витрину для дашборда лучше развернуть в аналитической БД, например, Clickhouse.
Накидайте огонёчков если было интересно, и мы продолжим углубляться в техническую сторону создания дашбордов и подготовки данных для них
С чего следует начать оптимизацию? В зависимости от вашего BI инструмента может быть два варианта:
- сделать большую денормализованную плоскую таблицу (подойдет для Superset, Datalens и им подобным, где запросы уходят сразу к БД, а полученный результат визуализируется
- проработать модель данных, выполнить нормализацию и построить снежинку или звезду (подойдет для Power BI)
Работу с Power BI пока оставим, рассмотрим первый вариант: денормализованная плоская таблица.
1️⃣ Что можно сделать с таблицей? Начните с определения уровня гранулярности. Если ваш дашборд отображает данные в разрезе категорий товаров, то не стоит в витрине хранить данные в разрезе каждого товара. Постройте витрину с агрегатами на уровне категорий.
2️⃣ Далее посмотрите на то, как хранятся данные. Например, если работаете со столбцом, в котором содержится дата, то его тип данных должен быть соответствующим. Можно преобразовать к нужному типу в запросе, но лучше позаботиться об этом на уровне исходных данных.
3️⃣ Следующий совет больше про Data Quality, но его можно рассмотреть и в оптимизации. Изучите данные в столбцах, по которым происходят расчеты, чтобы в них не было значений NULL, пустых строк или строк из одного или N пробелов.
4️⃣ Если вернуться к созданию витрины, то лучше если это буде физическая таблица или материализованное представление. В этом случае исходные данные на стороне БД не будут рассчитываться каждый раз при обращении (обратная ситуация с обычными view, вьюшками или представления, которые не что иное как обычный сохраненный SQL запрос). Но не забывайте обновлять в них данные (в обычных view этого не требуется).
5️⃣ Не считайте использование CTE решением, которое ускоряет запросы. Они могут помочь в этом, но должны соблюдаться определенные условия.
6️⃣ Чем меньше объединений в запросе – тем быстрее он отработает. Ваша витрина должна содержать все данные, необходимые для дашборда, проработайте этот вопрос.
7️⃣ Заключительное предложение: если у вас действительно большие объемы данных, то витрину для дашборда лучше развернуть в аналитической БД, например, Clickhouse.
Накидайте огонёчков если было интересно, и мы продолжим углубляться в техническую сторону создания дашбордов и подготовки данных для них
🔥33❤3