Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
21%
1
2%
2
6%
3
2%
4
8%
5
4%
6
6%
7
10%
8
10%
9
29%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
20%
1
0%
2
5%
3
7%
4
9%
5
2%
6
5%
7
11%
8
7%
9
34%
10
У datawrapper вышла классная статья в четырех частях о том, какую цветовую шкалу использовать при визуализации данных (во введении речь о цветовых шкалах в целом). Вторая часть посвящена использованию качественных и количественных цветовых шкал. В третьей части речь о последовательных и diverging (не знаю как перевести - расходящихся?) цветовых шкалах. А в заключительной статье об использовании цветовых шкал для непрерывных и сгруппированных данных.
Datawrapper
Datawrapper: Create charts, maps, and tables
Create interactive, responsive & beautiful data visualizations with the online tool Datawrapper — no code required.
И вдогонку еще ссылка: CSS-dataviz фреймворк.
chartscss.org
Charts.css
CSS data visualization framework
Обнаружение статистических выбросов
В блоге «Stats and R» мы нашли интересный материал про то, как обнаружить выбросы в датасете, используя пакеты и встроенные решения языка R. Внутри описаны самые разные способы — начиная простым поиском максимальных и минимальных значений выборки заканчивая статистическими тестами Граббса и Диксона.
Мы решили перевести этот материал, но так как Python встречается чаще, дополнительно сделали еще один — как все те же методы реализовать в Python.
®️ Обнаружение выбросов в R: https://leftjoin.ru/all/outliers-detection-in-r/
🐍 Обнаружение выбросов в Python: https://leftjoin.ru/all/outliers-detection-in-python/
В блоге «Stats and R» мы нашли интересный материал про то, как обнаружить выбросы в датасете, используя пакеты и встроенные решения языка R. Внутри описаны самые разные способы — начиная простым поиском максимальных и минимальных значений выборки заканчивая статистическими тестами Граббса и Диксона.
Мы решили перевести этот материал, но так как Python встречается чаще, дополнительно сделали еще один — как все те же методы реализовать в Python.
®️ Обнаружение выбросов в R: https://leftjoin.ru/all/outliers-detection-in-r/
🐍 Обнаружение выбросов в Python: https://leftjoin.ru/all/outliers-detection-in-python/
LEFT JOIN
Обнаружение статистических выбросов в R
Изучите различные подходы к обнаружению статистических выбросов в R, включая описательную статистику, гистограммы, диаграммы размаха и другие.
Opensource альтернатива databricks для управления пайплайнами данных — Arc.
arc.tripl.ai
Arc is an opinionated framework for defining data pipelines which are predictable, repeatable and manageable.
Логирование — мощный инструмент выявления и исправления непредвиденных ошибок. Сегодня мы напишем свой логгер на базе встроенного модуля logging в Python, подготовим для него конфигурационный файл и протестируем его работу на скрипте парсинга данных по API в базу данных:
https://leftjoin.ru/all/python-logger/
https://leftjoin.ru/all/python-logger/
leftjoin.ru
Эффективное логирование в Python
Мне очень интересен тг-канал @BigQuery, на который я подписан и регулярно читаю. Делюсь с вами списком аналогичных полезных Телеграм-каналов для аналитиков смежной тематики:
@BigQuery — аналитика в Google BigQuery, примеры решений и SQL-запросов, инсайты, лайфхаки и советы по работе с данными.
@WebAnalyst — WebAnalytics — полезная информация по веб-аналитике, повышению конверсии и анализу данных в маркетинге.
@ProductAnalytics — шпаргалка продуктового аналитика, актуальные материалы из закладок аналитиков.
@ABtesting — лучшие материалы по A/B-тестированию в одном канале.
@MarkeTech — канал о маркетинговой аналитике и применении современных технологий в digital-маркетинге.
@BigQuery — аналитика в Google BigQuery, примеры решений и SQL-запросов, инсайты, лайфхаки и советы по работе с данными.
@WebAnalyst — WebAnalytics — полезная информация по веб-аналитике, повышению конверсии и анализу данных в маркетинге.
@ProductAnalytics — шпаргалка продуктового аналитика, актуальные материалы из закладок аналитиков.
@ABtesting — лучшие материалы по A/B-тестированию в одном канале.
@MarkeTech — канал о маркетинговой аналитике и применении современных технологий в digital-маркетинге.
На прошлой неделе в блоге вышел перевод англоязычного материала «Обнаружение статистических выбросов в R» с обзором самых популярных методов обнаружения и проверки выбросов.
После выхода материала мне в личку написал Алексей Селезнёв, автор канала R4marketing. Он уточнил, что в разделе про фильтр Хэмпеля есть неточность, связанная с поведением функции вычисления медианного абсолютного отклонения mad(). Это правда: без дополнительного параметра функция будет искать не совсем медианное абсолютное отклонение. Функция принимает параметр constant, и для точного расчёта он должен равняться 1, а по умолчанию принимает значение равное 1.4826. Указание этого параметра со значением 1 исправляет неточность.
Мы поправили материал и написали автору оригинальной статьи Энтони Соэтвэю. Через сутки после обращения Энтони ответил, что такая неточность действительно есть и отредактировал материал в блоге statsandr.
Скриншот изменений ниже.
После выхода материала мне в личку написал Алексей Селезнёв, автор канала R4marketing. Он уточнил, что в разделе про фильтр Хэмпеля есть неточность, связанная с поведением функции вычисления медианного абсолютного отклонения mad(). Это правда: без дополнительного параметра функция будет искать не совсем медианное абсолютное отклонение. Функция принимает параметр constant, и для точного расчёта он должен равняться 1, а по умолчанию принимает значение равное 1.4826. Указание этого параметра со значением 1 исправляет неточность.
Мы поправили материал и написали автору оригинальной статьи Энтони Соэтвэю. Через сутки после обращения Энтони ответил, что такая неточность действительно есть и отредактировал материал в блоге statsandr.
Скриншот изменений ниже.
LEFT JOIN
Обнаружение статистических выбросов в R
Изучите различные подходы к обнаружению статистических выбросов в R, включая описательную статистику, гистограммы, диаграммы размаха и другие.
Вот это действительно классная новость! Надеюсь дойдет до стабильной версии CH и можно посмотреть на это на продакшене.
Forwarded from karpov.courses
Невероятно, но факт: в ClickHouse появилась поддержка оконных функций!
Почему это важно? ClickHouse – это база данных, созданная специально для аналитиков, а аналитические задачи не всегда решаются без оконных функций. Самые ловкие и умелые писали аналоги на словарях, лямбда-функциях и подзапросах, но всё же это считалось велосипедом и могло потребовать переписывать код под новую задачу. Отсутствие оконных функций часто звучало в обсуждениях баз данных для аналитиков и было одним из ключевых аргументов, почему не ClickHouse.
Пока что оконные функции находятся в альфа-версии и поддерживают не весь спектр параметров в сравнении с, например, PostgreSQL, но начало положено. Тем более ClickHouse – opensource база, так что ожидается, что при поддержке сообщества их быстро доделают до стандартов индустрии.
Ну и напомним, что ClickHouse является основной базой в нашем модуле по SQL. Мы обновили версию, так что студенты уже могут покрутить оконки на нашем кластере:)
Почему это важно? ClickHouse – это база данных, созданная специально для аналитиков, а аналитические задачи не всегда решаются без оконных функций. Самые ловкие и умелые писали аналоги на словарях, лямбда-функциях и подзапросах, но всё же это считалось велосипедом и могло потребовать переписывать код под новую задачу. Отсутствие оконных функций часто звучало в обсуждениях баз данных для аналитиков и было одним из ключевых аргументов, почему не ClickHouse.
Пока что оконные функции находятся в альфа-версии и поддерживают не весь спектр параметров в сравнении с, например, PostgreSQL, но начало положено. Тем более ClickHouse – opensource база, так что ожидается, что при поддержке сообщества их быстро доделают до стандартов индустрии.
Ну и напомним, что ClickHouse является основной базой в нашем модуле по SQL. Мы обновили версию, так что студенты уже могут покрутить оконки на нашем кластере:)
Forwarded from настенька и графики
Приятные оттенки серого для разнообразия. Серый вообще топ цвет для визуализаций, когда нужно делать фокус на чем-то одном (тогда серым делаете все категории, а какую-то выделяете другим более ярким). Связка серый+синий уже немного классическая, но часто берут самые дефолтные серый и синий, а вот такие оттенки могут сделать виз ещё симпатичнее 🦭
Не все используют GUI при работе с системой контроля версий, и для коммита файлов приходится вводить не одну команду в терминал, а смена веток нередко приводит к путанице.
А у GitHub есть API, который позволяет создавать репозитории, получать информацию о пользователях, отправлять и обновлять файлы и многое другое. В сегодняшнем материале пишем скрипт, который автоматизирует отправку коммитов при помощи запросов к GitHub API:
https://leftjoin.ru/all/github-api/
А у GitHub есть API, который позволяет создавать репозитории, получать информацию о пользователях, отправлять и обновлять файлы и многое другое. В сегодняшнем материале пишем скрипт, который автоматизирует отправку коммитов при помощи запросов к GitHub API:
https://leftjoin.ru/all/github-api/
leftjoin.ru
Пишем скрипт для автоматизации коммитов GitHub
Лучшие практики использования SQL по версии Metabase.
Некоторые советы действительно ценные. Из того, что реально встречалось на практике особенно выделил бы один, так как в свое время удалось существенно оптимизировать время выполнения запроса:
Prefer EXISTS to IN
If you just need to verify the existence of a value in a table, prefer EXISTS to IN, as the EXISTS process exits as soon as it finds the search value, whereas IN will scan the entire table. IN should be used for finding values in lists.
Metabase довольно интересный инструмент, на одном из проектов используем его, надо бы записать видео в продолжение Гайда по BI.
Если у кого-то есть время и интерес поисследовать Metabase, а также записать видео, пишите мне в DM: @valiotti.
Некоторые советы действительно ценные. Из того, что реально встречалось на практике особенно выделил бы один, так как в свое время удалось существенно оптимизировать время выполнения запроса:
Prefer EXISTS to IN
If you just need to verify the existence of a value in a table, prefer EXISTS to IN, as the EXISTS process exits as soon as it finds the search value, whereas IN will scan the entire table. IN should be used for finding values in lists.
Metabase довольно интересный инструмент, на одном из проектов используем его, надо бы записать видео в продолжение Гайда по BI.
Если у кого-то есть время и интерес поисследовать Metabase, а также записать видео, пишите мне в DM: @valiotti.
Metabase | Business Intelligence, Dashboards, and Data Visualization
Best practices for writing SQL queries | Metabase Learn
SQL best practices: a brief guide to writing better SQL queries.
Для работы с SQL-кодом и подключением к разным базам данных я достаточно давно использую DBeaver, это довольно удобный инструмент для работы с большим количеством разнообразных БД, у которого есть Community версия (читай, бесплатная).
И вот наткнулся на CloudBeaver (от создателей, разумеется), который умеет все то же самое через браузер.
И вот наткнулся на CloudBeaver (от создателей, разумеется), который умеет все то же самое через браузер.
Fivetran прислали письмо, в котором рассказывают про свою конференцию Modern Data Stack на ЕMEA, которая состоится 25го мая.
Думал, как это увязать с аналитикой и понял, что, наверное, никак, но и не поделиться не могу 🙂 Если кто-то вдруг заскучал по старому плееру Winamp, поддержка которого прекращена, поностальгируйте и скрасьте свой день с веб-версией Winamp ⚡️⚡️⚡️
webamp.org
Webamp • Winamp in your browser
Winamp reimplemented in HTML5 and JavaScript