Chartio — одно из решений облачной аналитики приобретен компанией Atlassian, многим известной по Jira / Confluence. Я использовал Chartio в нескольких проектах, у них очень интересно реализован слияние данных из разных источников. Итого, из современных BI-решений сделки по покупке уже состоялись по Looker, Redash, Periscope.
Наша с Ромой совместная работа про анализ зарплат рынка аналитиков данных попала в шортлист датавиз премии. Конечно, весь датавиз принадлежит Роману, однако это была интересная задачка и с точки зрения сбора данных.
И, разумеется, призываю подписчиков проголосовать за эту работу (естественно, в случае если она вам понравилась)🏅
И, разумеется, призываю подписчиков проголосовать за эту работу (естественно, в случае если она вам понравилась)🏅
Forwarded from Reveal the Data
Смотрите сколько классных работ на сайте премии Moscow DataViz Awards. Есть визуализации на любой вкус — от дата-арта до лонгридов и печатных работ. Две моих работы тоже попали в шорт-лист: совместная работа с Колей Валиотти про рынок вакансий аналитиков и трибьют Тафти в Табло. 🎉
#ссылка
#ссылка
В статье про Headless BI натыкался на решение Materialize, тогда бегло его изучил, почитав их сайт. Как понятно из названия и сайта, компания решает задачу материализации представлений для стриминга данных.
А вчера ребята рассказали, что сделали коннектор для dbt. Так что, процесс взаимодействия между компонентами modern data stack продолжается.
А вчера ребята рассказали, что сделали коннектор для dbt. Так что, процесс взаимодействия между компонентами modern data stack продолжается.
Telegram
Инжиниринг Данных
Свежий пост, где авторы рассказывают про концепт HeadlessBI
Владельцам устройств Apple наверняка приглянется новый цикл материалов — в нём мы подробно описываем, как выгрузить данные из приложения «Здоровье», обработать их в pandas и отправить в Google Spreadsheets.
https://leftjoin.ru/all/apple-health-export/
Следите за новыми материалами — в будущих заметках мы настроим ежедневный экспорт новых данных, проанализируем полученную таблицу и построим визуализации.
https://leftjoin.ru/all/apple-health-export/
Следите за новыми материалами — в будущих заметках мы настроим ежедневный экспорт новых данных, проанализируем полученную таблицу и построим визуализации.
leftjoin.ru
Экспорт исторических данных Apple Health в Google Sheets
«Небо, тоска, тьма, пламень, плакать, горе, печаль, сердце, солнце, мрак» — такой ответ дала нам нейронная сеть, проанализировав новый альбом Земфиры «бордерлайн».
Нам он тоже понравился — посмотрите, как мы сделали разведочный анализ текстов новых треков, а затем сравнили их близость косинусной мерой при помощи модели Word2Vec.
https://leftjoin.ru/all/borderline-text-analysis
Нам он тоже понравился — посмотрите, как мы сделали разведочный анализ текстов новых треков, а затем сравнили их близость косинусной мерой при помощи модели Word2Vec.
https://leftjoin.ru/all/borderline-text-analysis
LEFT JOIN
Python и тексты нового альбома Земфиры: анализируем суть песен
Неделю назад вышёл первый за 8 лет студийный альбом Земфиры «Бордерлайн». К работе помимо рок-певицы приложили руку разные люди, в том числе и её родственники — рифф для песни «таблетки» написал её племянник из Лондона. Альбом получился разнообразным: например…
Бот для форматирования данных Coinkeeper
Есть такое приложение для учёта финансов — Coinkeeper. Оно категоризирует каждую вашу трату, хранит исторические данные и предупреждает, если вы тратите больше, чем хотели.
Всю историю трат можно целиком выгрузить из приложения — но выгружаемый документ не подойдёт для Tableau. Азат Шарипов написал скрипт на Python, который приводит данные к нужному формату и на основе полученного документа сделал книгу в Tableau Public, а Рома Бунин в рамках проекта «Перевёрстка» переработал дашборд.
Мы тоже решили поучаствовать и сделали крутого чат-бота, который принимает csv-таблицу из Coinkeeper и отдаёт отформатированную либо в виде .csv-файла, либо в гугл-таблице. Бот умный: при повторной загрузке .csv-файла он обновит предыдущую гугл-таблицу, это значит, что можно максимально автоматизировать процесс обновления отчета в Tableau Public.
🤖Бот: @coinkeeper_export_bot
📄Инструкция по использованию: https://leftjoin.ru/all/coinkeeper-data-bot/
Есть такое приложение для учёта финансов — Coinkeeper. Оно категоризирует каждую вашу трату, хранит исторические данные и предупреждает, если вы тратите больше, чем хотели.
Всю историю трат можно целиком выгрузить из приложения — но выгружаемый документ не подойдёт для Tableau. Азат Шарипов написал скрипт на Python, который приводит данные к нужному формату и на основе полученного документа сделал книгу в Tableau Public, а Рома Бунин в рамках проекта «Перевёрстка» переработал дашборд.
Мы тоже решили поучаствовать и сделали крутого чат-бота, который принимает csv-таблицу из Coinkeeper и отдаёт отформатированную либо в виде .csv-файла, либо в гугл-таблице. Бот умный: при повторной загрузке .csv-файла он обновит предыдущую гугл-таблицу, это значит, что можно максимально автоматизировать процесс обновления отчета в Tableau Public.
🤖Бот: @coinkeeper_export_bot
📄Инструкция по использованию: https://leftjoin.ru/all/coinkeeper-data-bot/
leftjoin.ru
Бот для преобразования данных из Coinkeeper
Аналитик может уйти от Excel, а вот Excel от аналитика никуда не денется 🤓. Расширение Mito для Jupyter Lab позволяет анализировать pandas датафреймы как спредшиты.
DataLens — тарифицируемый BI-инструмент, работающий на базе Yandex Cloud. Одно из главных его преимуществ — простота и удобство работы с Clickhouse.
В сегодняшнем видео цикла гайдов по BI-системам мы узнаем, как зарегистрировать аккаунт в DataLens, подключить датасет и создать дополнительные таблицы на основе SQL-запросов, построить визуализации, связать их с фильтрами и добавить на дашборд согласно макету, а затем опубликовать результат.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
Материалы с обзором дашборда в других BI-инструментах:
▪️ Tableau
▪️ QlikSense
▪️ PowerBI
▪️ SAP Analytics Cloud
▪️ Redash
▪️ Google DataStudio
▪️ Excel
▪️ Looker
В сегодняшнем видео цикла гайдов по BI-системам мы узнаем, как зарегистрировать аккаунт в DataLens, подключить датасет и создать дополнительные таблицы на основе SQL-запросов, построить визуализации, связать их с фильтрами и добавить на дашборд согласно макету, а затем опубликовать результат.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
Материалы с обзором дашборда в других BI-инструментах:
▪️ Tableau
▪️ QlikSense
▪️ PowerBI
▪️ SAP Analytics Cloud
▪️ Redash
▪️ Google DataStudio
▪️ Excel
▪️ Looker
YouTube
Обзор дашборда в Yandex DataLens
✔️Получить гайд по BI-системам от команды LEFT JOIN: https://news.1rj.ru/str/leftjoin_helper_bot?start=YouTube-ApacheSuperset
Обзор дашборда, созданного в Yandex DataLens на основе датасета Superstore.
Полезные ссылки:
🔗 Сайт data-консалтинга LEFT JOIN: https://leftjoin.ru/…
Обзор дашборда, созданного в Yandex DataLens на основе датасета Superstore.
Полезные ссылки:
🔗 Сайт data-консалтинга LEFT JOIN: https://leftjoin.ru/…
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
21%
1
2%
2
6%
3
2%
4
8%
5
4%
6
6%
7
10%
8
10%
9
29%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
20%
1
0%
2
5%
3
7%
4
9%
5
2%
6
5%
7
11%
8
7%
9
34%
10
У datawrapper вышла классная статья в четырех частях о том, какую цветовую шкалу использовать при визуализации данных (во введении речь о цветовых шкалах в целом). Вторая часть посвящена использованию качественных и количественных цветовых шкал. В третьей части речь о последовательных и diverging (не знаю как перевести - расходящихся?) цветовых шкалах. А в заключительной статье об использовании цветовых шкал для непрерывных и сгруппированных данных.
Datawrapper
Datawrapper: Create charts, maps, and tables
Create interactive, responsive & beautiful data visualizations with the online tool Datawrapper — no code required.
И вдогонку еще ссылка: CSS-dataviz фреймворк.
chartscss.org
Charts.css
CSS data visualization framework
Обнаружение статистических выбросов
В блоге «Stats and R» мы нашли интересный материал про то, как обнаружить выбросы в датасете, используя пакеты и встроенные решения языка R. Внутри описаны самые разные способы — начиная простым поиском максимальных и минимальных значений выборки заканчивая статистическими тестами Граббса и Диксона.
Мы решили перевести этот материал, но так как Python встречается чаще, дополнительно сделали еще один — как все те же методы реализовать в Python.
®️ Обнаружение выбросов в R: https://leftjoin.ru/all/outliers-detection-in-r/
🐍 Обнаружение выбросов в Python: https://leftjoin.ru/all/outliers-detection-in-python/
В блоге «Stats and R» мы нашли интересный материал про то, как обнаружить выбросы в датасете, используя пакеты и встроенные решения языка R. Внутри описаны самые разные способы — начиная простым поиском максимальных и минимальных значений выборки заканчивая статистическими тестами Граббса и Диксона.
Мы решили перевести этот материал, но так как Python встречается чаще, дополнительно сделали еще один — как все те же методы реализовать в Python.
®️ Обнаружение выбросов в R: https://leftjoin.ru/all/outliers-detection-in-r/
🐍 Обнаружение выбросов в Python: https://leftjoin.ru/all/outliers-detection-in-python/
LEFT JOIN
Обнаружение статистических выбросов в R
Изучите различные подходы к обнаружению статистических выбросов в R, включая описательную статистику, гистограммы, диаграммы размаха и другие.
Opensource альтернатива databricks для управления пайплайнами данных — Arc.
arc.tripl.ai
Arc is an opinionated framework for defining data pipelines which are predictable, repeatable and manageable.
Логирование — мощный инструмент выявления и исправления непредвиденных ошибок. Сегодня мы напишем свой логгер на базе встроенного модуля logging в Python, подготовим для него конфигурационный файл и протестируем его работу на скрипте парсинга данных по API в базу данных:
https://leftjoin.ru/all/python-logger/
https://leftjoin.ru/all/python-logger/
leftjoin.ru
Эффективное логирование в Python
Мне очень интересен тг-канал @BigQuery, на который я подписан и регулярно читаю. Делюсь с вами списком аналогичных полезных Телеграм-каналов для аналитиков смежной тематики:
@BigQuery — аналитика в Google BigQuery, примеры решений и SQL-запросов, инсайты, лайфхаки и советы по работе с данными.
@WebAnalyst — WebAnalytics — полезная информация по веб-аналитике, повышению конверсии и анализу данных в маркетинге.
@ProductAnalytics — шпаргалка продуктового аналитика, актуальные материалы из закладок аналитиков.
@ABtesting — лучшие материалы по A/B-тестированию в одном канале.
@MarkeTech — канал о маркетинговой аналитике и применении современных технологий в digital-маркетинге.
@BigQuery — аналитика в Google BigQuery, примеры решений и SQL-запросов, инсайты, лайфхаки и советы по работе с данными.
@WebAnalyst — WebAnalytics — полезная информация по веб-аналитике, повышению конверсии и анализу данных в маркетинге.
@ProductAnalytics — шпаргалка продуктового аналитика, актуальные материалы из закладок аналитиков.
@ABtesting — лучшие материалы по A/B-тестированию в одном канале.
@MarkeTech — канал о маркетинговой аналитике и применении современных технологий в digital-маркетинге.
На прошлой неделе в блоге вышел перевод англоязычного материала «Обнаружение статистических выбросов в R» с обзором самых популярных методов обнаружения и проверки выбросов.
После выхода материала мне в личку написал Алексей Селезнёв, автор канала R4marketing. Он уточнил, что в разделе про фильтр Хэмпеля есть неточность, связанная с поведением функции вычисления медианного абсолютного отклонения mad(). Это правда: без дополнительного параметра функция будет искать не совсем медианное абсолютное отклонение. Функция принимает параметр constant, и для точного расчёта он должен равняться 1, а по умолчанию принимает значение равное 1.4826. Указание этого параметра со значением 1 исправляет неточность.
Мы поправили материал и написали автору оригинальной статьи Энтони Соэтвэю. Через сутки после обращения Энтони ответил, что такая неточность действительно есть и отредактировал материал в блоге statsandr.
Скриншот изменений ниже.
После выхода материала мне в личку написал Алексей Селезнёв, автор канала R4marketing. Он уточнил, что в разделе про фильтр Хэмпеля есть неточность, связанная с поведением функции вычисления медианного абсолютного отклонения mad(). Это правда: без дополнительного параметра функция будет искать не совсем медианное абсолютное отклонение. Функция принимает параметр constant, и для точного расчёта он должен равняться 1, а по умолчанию принимает значение равное 1.4826. Указание этого параметра со значением 1 исправляет неточность.
Мы поправили материал и написали автору оригинальной статьи Энтони Соэтвэю. Через сутки после обращения Энтони ответил, что такая неточность действительно есть и отредактировал материал в блоге statsandr.
Скриншот изменений ниже.
LEFT JOIN
Обнаружение статистических выбросов в R
Изучите различные подходы к обнаружению статистических выбросов в R, включая описательную статистику, гистограммы, диаграммы размаха и другие.