LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Владельцам устройств Apple наверняка приглянется новый цикл материалов — в нём мы подробно описываем, как выгрузить данные из приложения «Здоровье», обработать их в pandas и отправить в Google Spreadsheets.

https://leftjoin.ru/all/apple-health-export/

Следите за новыми материалами — в будущих заметках мы настроим ежедневный экспорт новых данных, проанализируем полученную таблицу и построим визуализации.
«Небо, тоска, тьма, пламень, плакать, горе, печаль, сердце, солнце, мрак» — такой ответ дала нам нейронная сеть, проанализировав новый альбом Земфиры «бордерлайн».

Нам он тоже понравился — посмотрите, как мы сделали разведочный анализ текстов новых треков, а затем сравнили их близость косинусной мерой при помощи модели Word2Vec.

https://leftjoin.ru/all/borderline-text-analysis
Бот для форматирования данных Coinkeeper

Есть такое приложение для учёта финансов — Coinkeeper. Оно категоризирует каждую вашу трату, хранит исторические данные и предупреждает, если вы тратите больше, чем хотели.

Всю историю трат можно целиком выгрузить из приложения — но выгружаемый документ не подойдёт для Tableau. Азат Шарипов написал скрипт на Python, который приводит данные к нужному формату и на основе полученного документа сделал книгу в Tableau Public, а Рома Бунин в рамках проекта «Перевёрстка» переработал дашборд.

Мы тоже решили поучаствовать и сделали крутого чат-бота, который принимает csv-таблицу из Coinkeeper и отдаёт отформатированную либо в виде .csv-файла, либо в гугл-таблице. Бот умный: при повторной загрузке .csv-файла он обновит предыдущую гугл-таблицу, это значит, что можно максимально автоматизировать процесс обновления отчета в Tableau Public.

🤖Бот: @coinkeeper_export_bot
📄Инструкция по использованию: https://leftjoin.ru/all/coinkeeper-data-bot/
Аналитик может уйти от Excel, а вот Excel от аналитика никуда не денется 🤓. Расширение Mito для Jupyter Lab позволяет анализировать pandas датафреймы как спредшиты.
DataLens — тарифицируемый BI-инструмент, работающий на базе Yandex Cloud. Одно из главных его преимуществ — простота и удобство работы с Clickhouse.

В сегодняшнем видео цикла гайдов по BI-системам мы узнаем, как зарегистрировать аккаунт в DataLens, подключить датасет и создать дополнительные таблицы на основе SQL-запросов, построить визуализации, связать их с фильтрами и добавить на дашборд согласно макету, а затем опубликовать результат.

Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.

Материалы с обзором дашборда в других BI-инструментах:
▪️ Tableau
▪️ QlikSense
▪️ PowerBI
▪️ SAP Analytics Cloud
▪️ Redash
▪️ Google DataStudio
▪️ Excel
▪️ Looker
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
21%
1
2%
2
6%
3
2%
4
8%
5
4%
6
6%
7
10%
8
10%
9
29%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
20%
1
0%
2
5%
3
7%
4
9%
5
2%
6
5%
7
11%
8
7%
9
34%
10
Обнаружение статистических выбросов

В блоге «Stats and R» мы нашли интересный материал про то, как обнаружить выбросы в датасете, используя пакеты и встроенные решения языка R. Внутри описаны самые разные способы — начиная простым поиском максимальных и минимальных значений выборки заканчивая статистическими тестами Граббса и Диксона.

Мы решили перевести этот материал, но так как Python встречается чаще, дополнительно сделали еще один — как все те же методы реализовать в Python.

®️ Обнаружение выбросов в R: https://leftjoin.ru/all/outliers-detection-in-r/
🐍 Обнаружение выбросов в Python: https://leftjoin.ru/all/outliers-detection-in-python/
Попалась интересная статья про downsampling временных рядов.

#ссылка
Opensource альтернатива databricks для управления пайплайнами данных — Arc.
Логирование — мощный инструмент выявления и исправления непредвиденных ошибок. Сегодня мы напишем свой логгер на базе встроенного модуля logging в Python, подготовим для него конфигурационный файл и протестируем его работу на скрипте парсинга данных по API в базу данных:

https://leftjoin.ru/all/python-logger/
Мне очень интересен тг-канал @BigQuery, на который я подписан и регулярно читаю. Делюсь с вами списком аналогичных полезных Телеграм-каналов для аналитиков смежной тематики:

@BigQuery — аналитика в Google BigQuery, примеры решений и SQL-запросов, инсайты, лайфхаки и советы по работе с данными.
@WebAnalyst — WebAnalytics — полезная информация по веб-аналитике, повышению конверсии и анализу данных в маркетинге.
@ProductAnalytics — шпаргалка продуктового аналитика, актуальные материалы из закладок аналитиков.
@ABtesting — лучшие материалы по A/B-тестированию в одном канале.
@MarkeTech — канал о маркетинговой аналитике и применении современных технологий в digital-маркетинге.
На прошлой неделе в блоге вышел перевод англоязычного материала «Обнаружение статистических выбросов в R» с обзором самых популярных методов обнаружения и проверки выбросов.

После выхода материала мне в личку написал Алексей Селезнёв, автор канала R4marketing. Он уточнил, что в разделе про фильтр Хэмпеля есть неточность, связанная с поведением функции вычисления медианного абсолютного отклонения mad(). Это правда: без дополнительного параметра функция будет искать не совсем медианное абсолютное отклонение. Функция принимает параметр constant, и для точного расчёта он должен равняться 1, а по умолчанию принимает значение равное 1.4826. Указание этого параметра со значением 1 исправляет неточность.

Мы поправили материал и написали автору оригинальной статьи Энтони Соэтвэю. Через сутки после обращения Энтони ответил, что такая неточность действительно есть и отредактировал материал в блоге statsandr.

Скриншот изменений ниже.
Вот это действительно классная новость! Надеюсь дойдет до стабильной версии CH и можно посмотреть на это на продакшене.
Forwarded from karpov.courses
Невероятно, но факт: в ClickHouse появилась поддержка оконных функций!

Почему это важно? ClickHouse – это база данных, созданная специально для аналитиков, а аналитические задачи не всегда решаются без оконных функций. Самые ловкие и умелые писали аналоги на словарях, лямбда-функциях и подзапросах, но всё же это считалось велосипедом и могло потребовать переписывать код под новую задачу. Отсутствие оконных функций часто звучало в обсуждениях баз данных для аналитиков и было одним из ключевых аргументов, почему не ClickHouse.

Пока что оконные функции находятся в альфа-версии и поддерживают не весь спектр параметров в сравнении с, например, PostgreSQL, но начало положено. Тем более ClickHouse – opensource база, так что ожидается, что при поддержке сообщества их быстро доделают до стандартов индустрии.

Ну и напомним, что ClickHouse является основной базой в нашем модуле по SQL. Мы обновили версию, так что студенты уже могут покрутить оконки на нашем кластере:)
Согласен с @kuandi! Мы в Петербурге умеем до 50 таких оттенков серого отличать 😎