Февраль и март выдаются достаточно насыщенными месяцами: например, я участвую в школе наставников от Яндекс.Практикум по направлению данных, поэтому только сейчас восполняю пробел в постах.
Сегодня о когортном анализе в Redash.
Сегодня о когортном анализе в Redash.
leftjoin.ru
Когортный анализ в Redash
О том, как с помощью Python собрать информацию о количестве просмотров, кликов и затрат по рекламным кампаниям Facebook –– в новом материале.
http://leftjoin.ru/all/collecting-costs-from-facebook-api/
http://leftjoin.ru/all/collecting-costs-from-facebook-api/
LEFT JOIN
Собираем данные по рекламным кампаниям в Facebook
Давайте узнаем, как получить информацию о затратах, кликах и показах рекламных кампаний из Facebook. Получение ключа Первое, что необходимо сделать для работы с Facebook API — создать приложение. Для этого заходим на https://developers.facebook.com — My Apps —…
Сегодня посмотрим, как выгруженные из Facebook данные по рекламным кампаниям передать в Redash, используя формат json и сервер на aiohttp.
http://leftjoin.ru/all/give-json-data-to-redash/
http://leftjoin.ru/all/give-json-data-to-redash/
leftjoin.ru
Передаём и анализируем собранные данные по рекламным кампаниям в Redash
Смотрим, как арендовать бесплатную машину под управлением Ubuntu с Amazon Web Services и установить туда колоночную СУБД от Яндекса Clickhouse:
http://leftjoin.ru/all/stavim-clickhouse-na-aws/
http://leftjoin.ru/all/stavim-clickhouse-na-aws/
В новом материале модернизируем наш скрипт, получающий данные рекламных кампаний с Facebook: теперь он будет отправлять их в Clickhouse и собирать в материализованное представление.
http://leftjoin.ru/all/materialized-view-in-clickhouse/
http://leftjoin.ru/all/materialized-view-in-clickhouse/
leftjoin.ru
Создаём материализованное представление в Clickhouse
Пробуем себя в новом формате – сегодня у нас пятничный лонгрид. Научимся брать данные с ВК, отправлять их по Spreadsheet API в Google Docs и анализировать в Redash.
http://leftjoin.ru/all/get-data-from-vk/
http://leftjoin.ru/all/get-data-from-vk/
LEFT JOIN
Собираем данные по рекламным кампаниям ВКонтакте
В пятничном лонгриде проделаем большую работу: возьмём информацию по рекламным кампаниям ВКонтакте и сопоставим их с данными Google Analytics в Redash. Чтобы снова не поднимать сервер, будем передавать данные через Google Docs, используя Spreadsheet API.…
В далёком 2011 году для отчёта одной телеком-компании мы строили диаграмму «Градусник» — эта диаграмма показывает, насколько фактические данные соответствуют ожиданиям. Сегодня разберём, как построить такую диаграмму в Python при помощи библиотеки matplotlib.
http://leftjoin.ru/all/postroenie-diagrammy-gradusnik/
http://leftjoin.ru/all/postroenie-diagrammy-gradusnik/
leftjoin.ru
Красивая визуализация в Python. Диаграмма Градусник
С 2019 года на каждом чеке должен присутствовать QR-код, по которому можно получить интересную информацию о своих покупках и обрабатать её. Рассказываем, как это сделать на Python. http://leftjoin.ru/all/sobiraem-dannye-s-chekov-gipermarketov-na-python/
LEFT JOIN
Собираем данные с чеков гипермаркетов на Python
Update: к сожалению, информация в данном посте устарела. Рекомендуем изучить наш новый пост. Недавно, покупая в очередной раз продукты в гипермаркете, вспомнил, что согласно ФЗ-54 любой оператор торговли, который пробивает кассовый чек, обязан отправлять…
Интересовались когда-нибудь, сколько в месяц тратите на молочные продукты или на сладкое? К сожалению, в чеках категории товаров не указываются, а обрабатывать вручную еженедельные покупки — неудобно. В новом пятничном лонгриде обучим модель машинного обучения на Python, которая сама классифицирует товары на категории!
http://leftjoin.ru/all/stroim-model-predskazaniya-kategorii-produktov/
http://leftjoin.ru/all/stroim-model-predskazaniya-kategorii-produktov/
leftjoin.ru
Строим модель для предсказания категории продуктов
Перевели шпаргалку по оконным функциям от learnsql.com: вспоминаем их синтаксис, отличие от агрегатных функций, а также функции ранжирования, распределения и немного теории о рамках. За cheatsheet спасибо Telegram-каналу @dataeng!
http://leftjoin.ru/all/window-functions-cheatsheet/
http://leftjoin.ru/all/window-functions-cheatsheet/
LEFT JOIN
Шпаргалка по оконным функциям в SQL
Перевели увесистую шпаргалку по оконным функциям в SQL от learnsql.com: вспоминаем синтаксис, функции распределения, ранжирования и многое другое. Версия в pdf За cheatsheet спасибо Telegram-каналу DataEng
Не всегда QR-сканер способен различить код на изображении. Разбираемся, как средствами библиотеки scikit-image провести предобработку изображения так, чтобы выделить на нём QR-код.
http://leftjoin.ru/all/obrabotka-izobrazheniya-s-chekom-dlya-poiska-qr-koda/
http://leftjoin.ru/all/obrabotka-izobrazheniya-s-chekom-dlya-poiska-qr-koda/
leftjoin.ru
Обработка изображения с чеком для поиска QR-кода через библиотеку skimage
Сегодня научимся работать с API социальной сети Untappd, создавать внешние словари для Clickhouse и подключаться к AWS по SFTP:
http://leftjoin.ru/all/untappd-clickhouse-dictionaries/
http://leftjoin.ru/all/untappd-clickhouse-dictionaries/
leftjoin.ru
Использование словарей в Clickhouse на примере данных Untappd
Мы уже рассказывали, как имитировать скроллинг страницы для прогрузки каталога сайта. Сегодня поговорим, как при помощи Selenium находить и проводить нажатие кнопки на примере Untappd:
http://leftjoin.ru/all/selenium-button/
http://leftjoin.ru/all/selenium-button/
LEFT JOIN
Обрабатываем нажатие кнопки в Selenium
В материале Парсим данные, используя Buetiful Soup и Selenium мы уже рассмотрели, как быть, когда данные на странице динамически подгружаются при скролле страницы. Но бывают ситуации, когда новые данные можно получить, только нажав на кнопку «Показать ещё» —…
В одном из прошлых материалов мы показали, как при помощи библиотеки matplotlib в Python построить диаграмму Градусник: сегодня разбираемся, как уже с библиотекой plotly сделать интерактивную диаграмму Водопад, которую затем можно будет встроить к себе на сайт.
http://leftjoin.ru/all/waterfall-chart/
http://leftjoin.ru/all/waterfall-chart/
leftjoin.ru
Как построить красивый waterfall chart в Python?
Перевели материал о том, как верно выбрать шрифт для визуализации данных и подобрать подходящую типографскую систему для вашего проекта.
http://leftjoin.ru/all/choosing-font-for-data-vis/
http://leftjoin.ru/all/choosing-font-for-data-vis/
В течение последней недели в России произошло важное событие: голосование за (или против?) принятие поправок к Конституции. В новом материале мы провели семантический анализ мнений пользователей ВКонтакте из постов новостной ленты по ключевому слову «конституция» за последнюю неделю и выяснили, какой процент людей писал об этом событии в положительном тоне, а какой — в негативном.
http://leftjoin.ru/all/constitution-sentiment-analysis/
http://leftjoin.ru/all/constitution-sentiment-analysis/
Во время парсинга больших сайтов на Selenium нередко возникает риск получить бан по IP-адресу: в таком случае лучше использовать прокси. Сегодня пишем скрипт, который сам парсит бесплатные прокси, проверяет их работоспособность и возвращает «живые».
http://leftjoin.ru/all/selenium-proxy/
http://leftjoin.ru/all/selenium-proxy/
LEFT JOIN
Пишем парсер свежих прокси на Python для Selenium
Случается такое, что во время парсинга страниц через Selenium можно словить бан по IP-адресу. Чтобы этого избежать, лучше использовать прокси. Сегодня напишем скрипт, который сам спарсит новые прокси, проверит их и в случае успеха передаст в Selenium. Парсинг…
Поговорили в формате видеоподкаста c Романом Буниным – руководителем команды визуализации данных Яндекс.Такси, автором блога revealthedata и телеграм-канала @revealthedata о визуализации данных и Tableau. Обсудили как аналитика влияет на компанию, как построить карьеру в этой сфере и чего ожидать от области в будущем.
Revealthedata
Reveal the Data
Блог Ромы Бунина про визуализацию данных, Tableau и развитие BI-систем.
Forwarded from Reveal the Data
Записал подкаст с Николаем Валиотти — аналитиком и экспертом по работе с данными, автором канала Left Join и основателем компании Valiotti Analytics.
Было интересно по-общаться про построение полного цикла аналитики: от построения dwh до визуализации и поиска инсайтов. Поговорили про роль аналитики в компании, современные open source продукты на примере одного из проектов и обсудили будущее аналитики.
0:37 — Про карьерный путь
3:21 — Как пришёл в аналитику
8:05 — Что нравится в профессии
10:00 — Какие вызовы есть в профессиональной сфере
14:16 — Как выбрать: новые и модные технологии, или старые и надежные
19:05 — Пример проекта по построению полного цикла аналитики
30:51 — Как будет развиваться область BI
33:35 — Про Self-Service аналитику
38:33 — Про роль аналитика в компании
43:17 — Будущее аналитики
50:02 — Про построение хранилища данных и разработку dwh
55:25 — Блиц
Было интересно по-общаться про построение полного цикла аналитики: от построения dwh до визуализации и поиска инсайтов. Поговорили про роль аналитики в компании, современные open source продукты на примере одного из проектов и обсудили будущее аналитики.
0:37 — Про карьерный путь
3:21 — Как пришёл в аналитику
8:05 — Что нравится в профессии
10:00 — Какие вызовы есть в профессиональной сфере
14:16 — Как выбрать: новые и модные технологии, или старые и надежные
19:05 — Пример проекта по построению полного цикла аналитики
30:51 — Как будет развиваться область BI
33:35 — Про Self-Service аналитику
38:33 — Про роль аналитика в компании
43:17 — Будущее аналитики
50:02 — Про построение хранилища данных и разработку dwh
55:25 — Блиц
YouTube
Николай Валиотти — аналитик и эксперт по работе с данными
Видеоподкаст с Николаем Валиотти: про аналитику, построение хранилища данных и развитие BI систем в будущем.
0:37 — Про карьерный путь
3:21 — Как пришёл в аналитику
8:05 — Что нравится в профессии
10:00 — Какие вызовы есть в профессиональной сфере
14:16…
0:37 — Про карьерный путь
3:21 — Как пришёл в аналитику
8:05 — Что нравится в профессии
10:00 — Какие вызовы есть в профессиональной сфере
14:16…
Session_243432_Results.pdf
85.1 KB
Кстати, наш разговор с Ромой совпал с получением мной сертификации Tableau. Экзамен длился почти 2.5 часа (с учетом настройки оборудования), в течение всего экзамена за вами следит наблюдатель, стол должен быть абсолютно чист, в пространстве рядом с вами никого, а все приложения на компьютере завершены. Экзамен довольно детальный и на знание нюансов Tableau. Разобраться в деталях помогают собственные курсы от Tableau.
При успешном прохождении экзамена выдают бейдж 🎖
Тизер: да, это означапт, что в блоге обязательно появятся посты про Tableau 📊☺️
При успешном прохождении экзамена выдают бейдж 🎖
Тизер: да, это означапт, что в блоге обязательно появятся посты про Tableau 📊☺️