LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
«Делайте макет логичным и простым. Провожайте взгляд пользователя по странице, используя последовательную визуальную иерархию заголовков и разделов. Сгруппируйте вместе связанные показатели, чтобы их было легко найти»

Перевели материал специалиста по данным Shopify о том, как поэтапно построить дашборд: какие вопросы себе нужно задать перед проектирвоанием, чем руководствоваться в процессе и что делать после публикации результата:

https://leftjoin.ru/all/make-dashboards-using-product-thinking-approach/
Open Graph — протокол, который позволяет контролировать превью сайта в социальных сетях. В новом материале посмотрим, как при помощи скрипта на php и Open Graph разметки сделать автоматическую генерацию картинок для превью в социальных сетях:

https://leftjoin.ru/all/open-graph-image/
Chartio — одно из решений облачной аналитики приобретен компанией Atlassian, многим известной по Jira / Confluence. Я использовал Chartio в нескольких проектах, у них очень интересно реализован слияние данных из разных источников. Итого, из современных BI-решений сделки по покупке уже состоялись по Looker, Redash, Periscope.
Наша с Ромой совместная работа про анализ зарплат рынка аналитиков данных попала в шортлист датавиз премии. Конечно, весь датавиз принадлежит Роману, однако это была интересная задачка и с точки зрения сбора данных.

И, разумеется, призываю подписчиков проголосовать за эту работу (естественно, в случае если она вам понравилась)🏅
Forwarded from Reveal the Data
Смотрите сколько классных работ на сайте премии Moscow DataViz Awards. Есть визуализации на любой вкус — от дата-арта до лонгридов и печатных работ. Две моих работы тоже попали в шорт-лист: совместная работа с Колей Валиотти про рынок вакансий аналитиков и трибьют Тафти в Табло. 🎉

#ссылка
В статье про Headless BI натыкался на решение Materialize, тогда бегло его изучил, почитав их сайт. Как понятно из названия и сайта, компания решает задачу материализации представлений для стриминга данных.
А вчера ребята рассказали, что сделали коннектор для dbt. Так что, процесс взаимодействия между компонентами modern data stack продолжается.
Владельцам устройств Apple наверняка приглянется новый цикл материалов — в нём мы подробно описываем, как выгрузить данные из приложения «Здоровье», обработать их в pandas и отправить в Google Spreadsheets.

https://leftjoin.ru/all/apple-health-export/

Следите за новыми материалами — в будущих заметках мы настроим ежедневный экспорт новых данных, проанализируем полученную таблицу и построим визуализации.
«Небо, тоска, тьма, пламень, плакать, горе, печаль, сердце, солнце, мрак» — такой ответ дала нам нейронная сеть, проанализировав новый альбом Земфиры «бордерлайн».

Нам он тоже понравился — посмотрите, как мы сделали разведочный анализ текстов новых треков, а затем сравнили их близость косинусной мерой при помощи модели Word2Vec.

https://leftjoin.ru/all/borderline-text-analysis
Бот для форматирования данных Coinkeeper

Есть такое приложение для учёта финансов — Coinkeeper. Оно категоризирует каждую вашу трату, хранит исторические данные и предупреждает, если вы тратите больше, чем хотели.

Всю историю трат можно целиком выгрузить из приложения — но выгружаемый документ не подойдёт для Tableau. Азат Шарипов написал скрипт на Python, который приводит данные к нужному формату и на основе полученного документа сделал книгу в Tableau Public, а Рома Бунин в рамках проекта «Перевёрстка» переработал дашборд.

Мы тоже решили поучаствовать и сделали крутого чат-бота, который принимает csv-таблицу из Coinkeeper и отдаёт отформатированную либо в виде .csv-файла, либо в гугл-таблице. Бот умный: при повторной загрузке .csv-файла он обновит предыдущую гугл-таблицу, это значит, что можно максимально автоматизировать процесс обновления отчета в Tableau Public.

🤖Бот: @coinkeeper_export_bot
📄Инструкция по использованию: https://leftjoin.ru/all/coinkeeper-data-bot/
Аналитик может уйти от Excel, а вот Excel от аналитика никуда не денется 🤓. Расширение Mito для Jupyter Lab позволяет анализировать pandas датафреймы как спредшиты.
DataLens — тарифицируемый BI-инструмент, работающий на базе Yandex Cloud. Одно из главных его преимуществ — простота и удобство работы с Clickhouse.

В сегодняшнем видео цикла гайдов по BI-системам мы узнаем, как зарегистрировать аккаунт в DataLens, подключить датасет и создать дополнительные таблицы на основе SQL-запросов, построить визуализации, связать их с фильтрами и добавить на дашборд согласно макету, а затем опубликовать результат.

Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.

Материалы с обзором дашборда в других BI-инструментах:
▪️ Tableau
▪️ QlikSense
▪️ PowerBI
▪️ SAP Analytics Cloud
▪️ Redash
▪️ Google DataStudio
▪️ Excel
▪️ Looker
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
21%
1
2%
2
6%
3
2%
4
8%
5
4%
6
6%
7
10%
8
10%
9
29%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
20%
1
0%
2
5%
3
7%
4
9%
5
2%
6
5%
7
11%
8
7%
9
34%
10
Обнаружение статистических выбросов

В блоге «Stats and R» мы нашли интересный материал про то, как обнаружить выбросы в датасете, используя пакеты и встроенные решения языка R. Внутри описаны самые разные способы — начиная простым поиском максимальных и минимальных значений выборки заканчивая статистическими тестами Граббса и Диксона.

Мы решили перевести этот материал, но так как Python встречается чаще, дополнительно сделали еще один — как все те же методы реализовать в Python.

®️ Обнаружение выбросов в R: https://leftjoin.ru/all/outliers-detection-in-r/
🐍 Обнаружение выбросов в Python: https://leftjoin.ru/all/outliers-detection-in-python/
Попалась интересная статья про downsampling временных рядов.

#ссылка
Opensource альтернатива databricks для управления пайплайнами данных — Arc.
Логирование — мощный инструмент выявления и исправления непредвиденных ошибок. Сегодня мы напишем свой логгер на базе встроенного модуля logging в Python, подготовим для него конфигурационный файл и протестируем его работу на скрипте парсинга данных по API в базу данных:

https://leftjoin.ru/all/python-logger/