LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Session_243432_Results.pdf
85.1 KB
Кстати, наш разговор с Ромой совпал с получением мной сертификации Tableau. Экзамен длился почти 2.5 часа (с учетом настройки оборудования), в течение всего экзамена за вами следит наблюдатель, стол должен быть абсолютно чист, в пространстве рядом с вами никого, а все приложения на компьютере завершены. Экзамен довольно детальный и на знание нюансов Tableau. Разобраться в деталях помогают собственные курсы от Tableau.

При успешном прохождении экзамена выдают бейдж 🎖

Тизер: да, это означапт, что в блоге обязательно появятся посты про Tableau 📊☺️
Сегодня пройдём первый этап построения дашборда библиотекой dash от plotly: подготовим график и данные к нему. Строить будем scatter plot, который отобразит отношение количества отзывов пивоварен с Untappd к их средней оценке.

http://leftjoin.ru/all/scatter-plot-untappd/
Коллеги из канала @rockyourdata проводят интересный вебинар по визуализации данных с Ромой из @revealthedata.

Рекомендую к просмотру 👨‍🎓
А вот и ссылка на будущий вебинар! Роман один из топ экспертов по визуализации данных и созданию дашбордов! Такое нельзя пропустить!🤗 Сам с удовольствием посмотрю. Ставьте напоминание в ютубе. 15 июля (уже сегодня вечером). https://youtu.be/xSp5ykKcQho
Вторая часть цикла материалов о библиотеке Dash: сегодня построим простой дашборд с двумя регулируемыми параметрами на основе графика, который мы сделали в предыдущем материале и запустим его на локальном сервере.

http://leftjoin.ru/all/dashboard-python-1/
Продолжаем разбираться с библиотекой Dash: разворачиваем дашборд из прошлого материала на сервисе AWS Elastic Beanstalk.

http://leftjoin.ru/all/dashboard-python-2/
В сегодняшнем материале учимся размечать готовый geojson файл с административными границами, чтобы визуализировать последние данные по коронавирусу на карте России.

http://leftjoin.ru/all/plotly-russian-map/
Спасибо каналу @dataeng за подбор ссылок с саммита Apache Airflow 🙂

Удалось ознакомиться с перечисленными докладами, делюсь своими впечатлениями.

Автор доклада "Advanced Apache Superset for Data Engineers" из компании Preset рассказывает о возможностях Superset. Я предпочитаю Redash, но некоторые вещи в Superset из категории advanced features показались интересными:
* Например, можно определить не только пользовательский параметр в рамках SQL-запроса, но и пользовательскую функцию (в Jinja).
* Помимо этого в запросах по расписанию удобно можно задать output table для результатов, а сам запрос использовать в Airflow.
* Можно определить пользовательский плагин визуализации
* Можно динамически создавать графики через REST API (однако в самом докладе трюк не удался)

Второй доклад в основном рассказывает о пирамиде потребностей в данных организации, достаточно известный концепт о сравнении с пирамидой потребностей Маслоу, где в основе пирамиды — Data engineering, а в вершине — Machine Learning.

Доклад "Airflow the perfect match in our analytics pipeline" в большей степени об описании опыта использования Airflow в облачной инфраструктуре на больших массивах данных (десятки террабайт в дейтинге). В частности, автор рассказывает о том, как именно у них настроены DAGs в рамках аналитического пайплайна.
Из интересного: динамическое создание задач в Airflow как часть пайплайна.

Последний доклад из подборки посмотрел очень бегло, в частности, из-за менее понятного мне английского языка автора. Из ключевых хайлайтов в докладе: о месте Airflow в архитектуре, масштабировании. Отдельно можно отметить довольно подробное погружение в плагины Airflow (API).
Forwarded from DataEng
В сети стали доступны доклады с прошедшего Airflow Summit 2020.
Безусловно все докладчики выступали удалённо (мы этот год запомним навсегда)
Из докладов, которые хотелось бы отметить:

- Advanced Apache Superset for Data Engineers
- Data engineering hierarchy of needs
- Airflow the perfect match in our analytics pipeline
- Data flow with Airflow @ PayPal

Смотреть весь плейлист
Продолжаем разбираться с Untappd и перейдем к построению дашборда на основе Dash. Сегодня обсудим как можно использовать столь популярный в веб-разработке Bootstrap фреймворк для создания своего аналитического дашборда.
http://leftjoin.ru/all/untappd-bootstrap-dashboard-part-1/
Достаточно давно я уже описывал опыт работы с сайтом налоговой для получения данных из чеков. К сожалению, старый метод больше не работает. Нам пришлось изрядно потрудиться и соорудить новый метод получения данных. О нем — в новом материале:

http://leftjoin.ru/all/nalog-ru-client/
Буквально пару дней назад завершили работу над сайтом консалтинговой аналитической компании имени меня.
Мы занимаемся построением аналитических хранилищ данных и настраиваем аналитику в основном для мобильных и digital-стартапов.
Приглашаю вас на наш новый сайт по адресу: https://valiotti.com.
На сайте вы сможете узнать чем мы занимаемся, изучить наши кейсы и убедиться, что мы супер! 😜
Недавно мне на глаза попалась статья про то, что дашборды мертвы. Интересная точка зрения, однако под соусом их смерти продается работа с notebooks в целом и на одном конкретном сервисе в частности.

Подготовили перевод этой статьи на русский язык:
http://leftjoin.ru/all/dashbords-are-dead/
Полезно ознакомиться по нескольким причинам:
1) отличная возможность познакомиться с kaggle тем, кто не знаком
2) повторить pandas никогда не бывает лишним 🙂
3) у Алексея отличные заметки по Python, рекомендую его канал к изучению
Forwarded from Datalytics
Нашёл на Kaggle микрокурс по изучению Pandas, оформленный в виде ноутбуков. Включает в себя разбор всех базовых функций, так что для ознакомления с возможностями библиотеки отлично подходит

https://www.kaggle.com/learn/pandas
Сентябрь наступил, и начинается активная пора всевозможных ивентов. Большая часть в этом году, как все уже понимают, будет в удаленном формате. На этой неделе опубликован список первой части докладов Матемаркетинга-2020, на котором в этом году приму участие.

Из зарубежных конференций рекомендую обратить внимание на https://www.futuredata.org/, которая состоится уже через 4 дня.

Чуть позже будут и другие анонсы.

#events
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
опубликовали половину программы Матемаркетинга

https://www.facebook.com/nikushin.av/posts/3476071119124454
Интервью совершенно точно полезно начинающим и не только аналитикам. Алексей делится здравым смыслом, а Анатолий задает правильные вопросы. Самое то для просмотра в конце рабочей недели 🙂
Сегодня в канале много разного контента, не обошлось и без статьи. Интересная библиотека pandas-profiling, которая за вас попробует автоматически построить EDA (exploratory data analysis).
Подробности в материале блога.

Результаты библиотеки на датасете Superstore отдельной .html-страницей.