LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
В течение последней недели в России произошло важное событие: голосование за (или против?) принятие поправок к Конституции. В новом материале мы провели семантический анализ мнений пользователей ВКонтакте из постов новостной ленты по ключевому слову «конституция» за последнюю неделю и выяснили, какой процент людей писал об этом событии в положительном тоне, а какой — в негативном.

http://leftjoin.ru/all/constitution-sentiment-analysis/
Во время парсинга больших сайтов на Selenium нередко возникает риск получить бан по IP-адресу: в таком случае лучше использовать прокси. Сегодня пишем скрипт, который сам парсит бесплатные прокси, проверяет их работоспособность и возвращает «живые».

http://leftjoin.ru/all/selenium-proxy/
Поговорили в формате видеоподкаста c Романом Буниным – руководителем команды визуализации данных Яндекс.Такси, автором блога revealthedata и телеграм-канала @revealthedata о визуализации данных и Tableau. Обсудили как аналитика влияет на компанию, как построить карьеру в этой сфере и чего ожидать от области в будущем.
Forwarded from Reveal the Data
Записал подкаст с Николаем Валиотти — аналитиком и экспертом по работе с данными, автором канала Left Join и основателем компании Valiotti Analytics.

Было интересно по-общаться про построение полного цикла аналитики: от построения dwh до визуализации и поиска инсайтов. Поговорили про роль аналитики в компании, современные open source продукты на примере одного из проектов и обсудили будущее аналитики.

0:37 — Про карьерный путь
3:21 — Как пришёл в аналитику
8:05 — Что нравится в профессии
10:00 — Какие вызовы есть в профессиональной сфере
14:16 — Как выбрать: новые и модные технологии, или старые и надежные
19:05 — Пример проекта по построению полного цикла аналитики
30:51 — Как будет развиваться область BI
33:35 — Про Self-Service аналитику
38:33 — Про роль аналитика в компании
43:17 — Будущее аналитики
50:02 — Про построение хранилища данных и разработку dwh
55:25 — Блиц
Session_243432_Results.pdf
85.1 KB
Кстати, наш разговор с Ромой совпал с получением мной сертификации Tableau. Экзамен длился почти 2.5 часа (с учетом настройки оборудования), в течение всего экзамена за вами следит наблюдатель, стол должен быть абсолютно чист, в пространстве рядом с вами никого, а все приложения на компьютере завершены. Экзамен довольно детальный и на знание нюансов Tableau. Разобраться в деталях помогают собственные курсы от Tableau.

При успешном прохождении экзамена выдают бейдж 🎖

Тизер: да, это означапт, что в блоге обязательно появятся посты про Tableau 📊☺️
Сегодня пройдём первый этап построения дашборда библиотекой dash от plotly: подготовим график и данные к нему. Строить будем scatter plot, который отобразит отношение количества отзывов пивоварен с Untappd к их средней оценке.

http://leftjoin.ru/all/scatter-plot-untappd/
Коллеги из канала @rockyourdata проводят интересный вебинар по визуализации данных с Ромой из @revealthedata.

Рекомендую к просмотру 👨‍🎓
А вот и ссылка на будущий вебинар! Роман один из топ экспертов по визуализации данных и созданию дашбордов! Такое нельзя пропустить!🤗 Сам с удовольствием посмотрю. Ставьте напоминание в ютубе. 15 июля (уже сегодня вечером). https://youtu.be/xSp5ykKcQho
Вторая часть цикла материалов о библиотеке Dash: сегодня построим простой дашборд с двумя регулируемыми параметрами на основе графика, который мы сделали в предыдущем материале и запустим его на локальном сервере.

http://leftjoin.ru/all/dashboard-python-1/
Продолжаем разбираться с библиотекой Dash: разворачиваем дашборд из прошлого материала на сервисе AWS Elastic Beanstalk.

http://leftjoin.ru/all/dashboard-python-2/
В сегодняшнем материале учимся размечать готовый geojson файл с административными границами, чтобы визуализировать последние данные по коронавирусу на карте России.

http://leftjoin.ru/all/plotly-russian-map/
Спасибо каналу @dataeng за подбор ссылок с саммита Apache Airflow 🙂

Удалось ознакомиться с перечисленными докладами, делюсь своими впечатлениями.

Автор доклада "Advanced Apache Superset for Data Engineers" из компании Preset рассказывает о возможностях Superset. Я предпочитаю Redash, но некоторые вещи в Superset из категории advanced features показались интересными:
* Например, можно определить не только пользовательский параметр в рамках SQL-запроса, но и пользовательскую функцию (в Jinja).
* Помимо этого в запросах по расписанию удобно можно задать output table для результатов, а сам запрос использовать в Airflow.
* Можно определить пользовательский плагин визуализации
* Можно динамически создавать графики через REST API (однако в самом докладе трюк не удался)

Второй доклад в основном рассказывает о пирамиде потребностей в данных организации, достаточно известный концепт о сравнении с пирамидой потребностей Маслоу, где в основе пирамиды — Data engineering, а в вершине — Machine Learning.

Доклад "Airflow the perfect match in our analytics pipeline" в большей степени об описании опыта использования Airflow в облачной инфраструктуре на больших массивах данных (десятки террабайт в дейтинге). В частности, автор рассказывает о том, как именно у них настроены DAGs в рамках аналитического пайплайна.
Из интересного: динамическое создание задач в Airflow как часть пайплайна.

Последний доклад из подборки посмотрел очень бегло, в частности, из-за менее понятного мне английского языка автора. Из ключевых хайлайтов в докладе: о месте Airflow в архитектуре, масштабировании. Отдельно можно отметить довольно подробное погружение в плагины Airflow (API).
Forwarded from DataEng
В сети стали доступны доклады с прошедшего Airflow Summit 2020.
Безусловно все докладчики выступали удалённо (мы этот год запомним навсегда)
Из докладов, которые хотелось бы отметить:

- Advanced Apache Superset for Data Engineers
- Data engineering hierarchy of needs
- Airflow the perfect match in our analytics pipeline
- Data flow with Airflow @ PayPal

Смотреть весь плейлист
Продолжаем разбираться с Untappd и перейдем к построению дашборда на основе Dash. Сегодня обсудим как можно использовать столь популярный в веб-разработке Bootstrap фреймворк для создания своего аналитического дашборда.
http://leftjoin.ru/all/untappd-bootstrap-dashboard-part-1/
Достаточно давно я уже описывал опыт работы с сайтом налоговой для получения данных из чеков. К сожалению, старый метод больше не работает. Нам пришлось изрядно потрудиться и соорудить новый метод получения данных. О нем — в новом материале:

http://leftjoin.ru/all/nalog-ru-client/
Буквально пару дней назад завершили работу над сайтом консалтинговой аналитической компании имени меня.
Мы занимаемся построением аналитических хранилищ данных и настраиваем аналитику в основном для мобильных и digital-стартапов.
Приглашаю вас на наш новый сайт по адресу: https://valiotti.com.
На сайте вы сможете узнать чем мы занимаемся, изучить наши кейсы и убедиться, что мы супер! 😜
Недавно мне на глаза попалась статья про то, что дашборды мертвы. Интересная точка зрения, однако под соусом их смерти продается работа с notebooks в целом и на одном конкретном сервисе в частности.

Подготовили перевод этой статьи на русский язык:
http://leftjoin.ru/all/dashbords-are-dead/
Полезно ознакомиться по нескольким причинам:
1) отличная возможность познакомиться с kaggle тем, кто не знаком
2) повторить pandas никогда не бывает лишним 🙂
3) у Алексея отличные заметки по Python, рекомендую его канал к изучению
Forwarded from Datalytics
Нашёл на Kaggle микрокурс по изучению Pandas, оформленный в виде ноутбуков. Включает в себя разбор всех базовых функций, так что для ознакомления с возможностями библиотеки отлично подходит

https://www.kaggle.com/learn/pandas
Сентябрь наступил, и начинается активная пора всевозможных ивентов. Большая часть в этом году, как все уже понимают, будет в удаленном формате. На этой неделе опубликован список первой части докладов Матемаркетинга-2020, на котором в этом году приму участие.

Из зарубежных конференций рекомендую обратить внимание на https://www.futuredata.org/, которая состоится уже через 4 дня.

Чуть позже будут и другие анонсы.

#events