Продолжаем изучать интерфейс Redash. Сегодня пост об использовании параметров инструмента 🎚.
leftjoin.ru
Использование параметров в Redash
Визуализация и отчеты всегда строятся на аналитической архитектуре. В сегодняшней заметке много технических деталей о Clickhouse и проблемах его подключения к Kafka Cluster на Amazon MSK.
Спойлер: все технические проблемы решены с большой помощью гуру Clickhouse. Как? Подробности в заметке 🔧
Спойлер: все технические проблемы решены с большой помощью гуру Clickhouse. Как? Подробности в заметке 🔧
leftjoin.ru
Clickhouse в качестве consumer для Amazon MSK
Февраль и март выдаются достаточно насыщенными месяцами: например, я участвую в школе наставников от Яндекс.Практикум по направлению данных, поэтому только сейчас восполняю пробел в постах.
Сегодня о когортном анализе в Redash.
Сегодня о когортном анализе в Redash.
leftjoin.ru
Когортный анализ в Redash
О том, как с помощью Python собрать информацию о количестве просмотров, кликов и затрат по рекламным кампаниям Facebook –– в новом материале.
http://leftjoin.ru/all/collecting-costs-from-facebook-api/
http://leftjoin.ru/all/collecting-costs-from-facebook-api/
LEFT JOIN
Собираем данные по рекламным кампаниям в Facebook
Давайте узнаем, как получить информацию о затратах, кликах и показах рекламных кампаний из Facebook. Получение ключа Первое, что необходимо сделать для работы с Facebook API — создать приложение. Для этого заходим на https://developers.facebook.com — My Apps —…
Сегодня посмотрим, как выгруженные из Facebook данные по рекламным кампаниям передать в Redash, используя формат json и сервер на aiohttp.
http://leftjoin.ru/all/give-json-data-to-redash/
http://leftjoin.ru/all/give-json-data-to-redash/
leftjoin.ru
Передаём и анализируем собранные данные по рекламным кампаниям в Redash
Смотрим, как арендовать бесплатную машину под управлением Ubuntu с Amazon Web Services и установить туда колоночную СУБД от Яндекса Clickhouse:
http://leftjoin.ru/all/stavim-clickhouse-na-aws/
http://leftjoin.ru/all/stavim-clickhouse-na-aws/
В новом материале модернизируем наш скрипт, получающий данные рекламных кампаний с Facebook: теперь он будет отправлять их в Clickhouse и собирать в материализованное представление.
http://leftjoin.ru/all/materialized-view-in-clickhouse/
http://leftjoin.ru/all/materialized-view-in-clickhouse/
leftjoin.ru
Создаём материализованное представление в Clickhouse
Пробуем себя в новом формате – сегодня у нас пятничный лонгрид. Научимся брать данные с ВК, отправлять их по Spreadsheet API в Google Docs и анализировать в Redash.
http://leftjoin.ru/all/get-data-from-vk/
http://leftjoin.ru/all/get-data-from-vk/
LEFT JOIN
Собираем данные по рекламным кампаниям ВКонтакте
В пятничном лонгриде проделаем большую работу: возьмём информацию по рекламным кампаниям ВКонтакте и сопоставим их с данными Google Analytics в Redash. Чтобы снова не поднимать сервер, будем передавать данные через Google Docs, используя Spreadsheet API.…
В далёком 2011 году для отчёта одной телеком-компании мы строили диаграмму «Градусник» — эта диаграмма показывает, насколько фактические данные соответствуют ожиданиям. Сегодня разберём, как построить такую диаграмму в Python при помощи библиотеки matplotlib.
http://leftjoin.ru/all/postroenie-diagrammy-gradusnik/
http://leftjoin.ru/all/postroenie-diagrammy-gradusnik/
leftjoin.ru
Красивая визуализация в Python. Диаграмма Градусник
С 2019 года на каждом чеке должен присутствовать QR-код, по которому можно получить интересную информацию о своих покупках и обрабатать её. Рассказываем, как это сделать на Python. http://leftjoin.ru/all/sobiraem-dannye-s-chekov-gipermarketov-na-python/
LEFT JOIN
Собираем данные с чеков гипермаркетов на Python
Update: к сожалению, информация в данном посте устарела. Рекомендуем изучить наш новый пост. Недавно, покупая в очередной раз продукты в гипермаркете, вспомнил, что согласно ФЗ-54 любой оператор торговли, который пробивает кассовый чек, обязан отправлять…
Интересовались когда-нибудь, сколько в месяц тратите на молочные продукты или на сладкое? К сожалению, в чеках категории товаров не указываются, а обрабатывать вручную еженедельные покупки — неудобно. В новом пятничном лонгриде обучим модель машинного обучения на Python, которая сама классифицирует товары на категории!
http://leftjoin.ru/all/stroim-model-predskazaniya-kategorii-produktov/
http://leftjoin.ru/all/stroim-model-predskazaniya-kategorii-produktov/
leftjoin.ru
Строим модель для предсказания категории продуктов
Перевели шпаргалку по оконным функциям от learnsql.com: вспоминаем их синтаксис, отличие от агрегатных функций, а также функции ранжирования, распределения и немного теории о рамках. За cheatsheet спасибо Telegram-каналу @dataeng!
http://leftjoin.ru/all/window-functions-cheatsheet/
http://leftjoin.ru/all/window-functions-cheatsheet/
LEFT JOIN
Шпаргалка по оконным функциям в SQL
Перевели увесистую шпаргалку по оконным функциям в SQL от learnsql.com: вспоминаем синтаксис, функции распределения, ранжирования и многое другое. Версия в pdf За cheatsheet спасибо Telegram-каналу DataEng
Не всегда QR-сканер способен различить код на изображении. Разбираемся, как средствами библиотеки scikit-image провести предобработку изображения так, чтобы выделить на нём QR-код.
http://leftjoin.ru/all/obrabotka-izobrazheniya-s-chekom-dlya-poiska-qr-koda/
http://leftjoin.ru/all/obrabotka-izobrazheniya-s-chekom-dlya-poiska-qr-koda/
leftjoin.ru
Обработка изображения с чеком для поиска QR-кода через библиотеку skimage
Сегодня научимся работать с API социальной сети Untappd, создавать внешние словари для Clickhouse и подключаться к AWS по SFTP:
http://leftjoin.ru/all/untappd-clickhouse-dictionaries/
http://leftjoin.ru/all/untappd-clickhouse-dictionaries/
leftjoin.ru
Использование словарей в Clickhouse на примере данных Untappd
Мы уже рассказывали, как имитировать скроллинг страницы для прогрузки каталога сайта. Сегодня поговорим, как при помощи Selenium находить и проводить нажатие кнопки на примере Untappd:
http://leftjoin.ru/all/selenium-button/
http://leftjoin.ru/all/selenium-button/
LEFT JOIN
Обрабатываем нажатие кнопки в Selenium
В материале Парсим данные, используя Buetiful Soup и Selenium мы уже рассмотрели, как быть, когда данные на странице динамически подгружаются при скролле страницы. Но бывают ситуации, когда новые данные можно получить, только нажав на кнопку «Показать ещё» —…
В одном из прошлых материалов мы показали, как при помощи библиотеки matplotlib в Python построить диаграмму Градусник: сегодня разбираемся, как уже с библиотекой plotly сделать интерактивную диаграмму Водопад, которую затем можно будет встроить к себе на сайт.
http://leftjoin.ru/all/waterfall-chart/
http://leftjoin.ru/all/waterfall-chart/
leftjoin.ru
Как построить красивый waterfall chart в Python?
Перевели материал о том, как верно выбрать шрифт для визуализации данных и подобрать подходящую типографскую систему для вашего проекта.
http://leftjoin.ru/all/choosing-font-for-data-vis/
http://leftjoin.ru/all/choosing-font-for-data-vis/
В течение последней недели в России произошло важное событие: голосование за (или против?) принятие поправок к Конституции. В новом материале мы провели семантический анализ мнений пользователей ВКонтакте из постов новостной ленты по ключевому слову «конституция» за последнюю неделю и выяснили, какой процент людей писал об этом событии в положительном тоне, а какой — в негативном.
http://leftjoin.ru/all/constitution-sentiment-analysis/
http://leftjoin.ru/all/constitution-sentiment-analysis/
Во время парсинга больших сайтов на Selenium нередко возникает риск получить бан по IP-адресу: в таком случае лучше использовать прокси. Сегодня пишем скрипт, который сам парсит бесплатные прокси, проверяет их работоспособность и возвращает «живые».
http://leftjoin.ru/all/selenium-proxy/
http://leftjoin.ru/all/selenium-proxy/
LEFT JOIN
Пишем парсер свежих прокси на Python для Selenium
Случается такое, что во время парсинга страниц через Selenium можно словить бан по IP-адресу. Чтобы этого избежать, лучше использовать прокси. Сегодня напишем скрипт, который сам спарсит новые прокси, проверит их и в случае успеха передаст в Selenium. Парсинг…
Поговорили в формате видеоподкаста c Романом Буниным – руководителем команды визуализации данных Яндекс.Такси, автором блога revealthedata и телеграм-канала @revealthedata о визуализации данных и Tableau. Обсудили как аналитика влияет на компанию, как построить карьеру в этой сфере и чего ожидать от области в будущем.
Revealthedata
Reveal the Data
Блог Ромы Бунина про визуализацию данных, Tableau и развитие BI-систем.