This is Data – Telegram
This is Data
6.2K subscribers
168 photos
193 links
Канал Романа Романчука про аналитику и данные.

Рассказываю про метрики и мат.статистику. Обозреваю ENG и RUS статьи. Советую книги. Делюсь скриптами, ссылками, майндмэпами.

Сайт: https://thisisdata.ru
Задать вопрос: @romanchuk_roman
Download Telegram
Поздравляю всех с прошедшими праздниками! Чтобы не напоминать о надвигающихся рабочих буднях заранее, решил опубликовать дайджест сегодня.

GA4 продолжает пополняться новым функционалом. На этот раз добавили возможность экспорта кастомных параметров товара в BigQuery и их передачу через Measurement Protocol. Фича очень полезна для ecommerce проектов, более подробно про настройки таких параметров читайте тут.

Подсмотрел у коллег классный майндмеп по внедрению BI. Автор выделяет 8 главных и 22 вытекающие причины провала отчета и предлагает решения разного калибра. Например, проблема низкой эффективности отчетов может быть в том, что конечный пользователь не доверяет данным. Возможно, он не включен в процесс создания отчета или сомневается в достоверности данных. Тогда стоит привлечь другого аналитика со стороны пользователя для тесной коллаборации с командой или указывать, кем были предоставлены и рекомендованы данные (ввести сертификацию отчетов).

Вышли две новые статьи от Analytics Mania. Первая расскажет про группы контента и покажет способы имплементации в GTM, а вторая продемонстрирует два способа отслеживания партнерских ссылок в GA4.

Статья (VPN) для тех, кто все еще недоумевает от задачек по теории вероятности на собеседованиях. Автор объясняет, почему дата аналитику важно уметь решать их и приводит примеры из рутинной практики.

#дайджест
9👍5
Прошедшая неделя запомнится не только масштабной конференцией Матемаркетинг-23. Дайджест со свежими статьями как раз подоспел!

Встречайте A/B тестирование в Facebook (VPN): теперь авторы могут загрузить до 4-х обложек Reels и запустить A/B тест на ограниченном пуле подписчиков. По результатам теста система выберет лучший вариант обложки и применит его. Есть все основания ожидать обновление и другом продукте Meta* – Инстаграм.
* признана в РФ экстремистской и запрещена

Чтобы А/В тестирование дало корректный результат, эксперимент необходимо проводить на посетителях, выбранных случайным образом из общего числа. Но в ритейле подобные условия часто не реализуемы, например, когда эксперимент ограничен магазинами в конкретной локации. Тогда на помощь приходит Causal Inference. Здесь статья о выявление причинно-следственных связей и расчете их статистической значимости.

Команда real-time дата аналитики перенесла обработку и хранение данных (VPN) в Apache Doris, что значительно упростило архитектуру. Новый опен сорс инструмент еще не успел хайпануть в России, но имеет все шансы. По словам разработчиков, он быстрее ClickHouse, хорошо справляется с сжатием данных и синхронизируется с MySQL и Oracle. Стоит обратить на него внимание.

9 ноября Сергей Денисов, СРО Яндекс Метрики, в ходе доклада на Матемаркетинге-23 анонсировал Метрику Про. Это пакет, расширяющий базовые возможности Яндекс Метрики. Он позволяет создавать больше целей и сегментов, выгружать больше данных через LogsAPI, делать больше запросов в API отчетов Метрики, а также передавать данные в Yandex Cloud в реальном времени. Метрика Про нацелена на крупный бизнес с большими объемами данных.

#дайджест
👍112
Как вы заметили, я стал более активно вести канал. В планах посты с кейсами из аналитической жизни, а также курсы по GA4, GTM, Метрике и продуктовой аналитике.

Но сейчас интересует ваше мнение по поводу дайджестов новостей, как часто их публиковать?
Anonymous Poll
72%
Раз в неделю
15%
Раз в две недели
7%
Раз в месяц
5%
Не публиковать
👍14
Начинаем рабочие будни с подборки свежих статей для саморазвития.

Недавно калифорнийский стартап по следам хайпа вокруг ChatGPT, запустил новый продукт DataGPT, выполняющий функции аналитика данных🤓
DataGPT использует алгоритм, который фокусируется исключительно на искомых ключевых метриках, не отвлекаясь на второстепенные. Поэтому пользователю достаточно создать сценарий использования с наиболее важными KPI и скормить его модели. Подробнее про инструмент можно прочитать тут, а потестить тут.

DataGPT – не новшество, а лишь очередное подтверждение тренда: аналитика при помощи общения с ИИ посредством прямого диалога становится повседневностью. Так, этим летом Google зарелизил свою модель с искусственным интеллектом Duet AI для работы в Looker Studio. Duet AI позволяет создать сложную визуализацию данных с помощью коротких инструкций на человеческом языке. Очень надеюсь, что смогу в ближайшее время потестить фичу и рассказать вам о своих впечатлениях🤞

Импорт расходов в GA4 из сторонних кабинетов – тема нетривиальная. При неправильном переносе мы рискуем потерять часть данных. Нам в помощь Яков Осипенков опубликовал статью на эту тему. Автор рассказал про статические значения параметра utm_id, который теперь обязателен в схеме данных при импорте, а также пояснил, почему процент импортированных данных должен быть равен 100%.

Как сделать диаграммы нагляднее? На примере графиков в Excel автор блога поделился семью приемами, которые превратят простые таблицы в диаграммы из презентаций Apple. Каждый прием подкрепляется теорией из учебника по дизайну. Пусть вас не смущает, что Excel сейчас не в тренде, рекомендации из статьи применимы к любому инструменту визуализации данных.

#дайджест
🔥18👍1
Хочу поделиться с вами своим взглядом на менеджмент продуктовых гипотез.

Часто в командах аналитики можно встретить следующие проблемы:

🔹Не систематизирован процесс поиска инсайтов и выдвижения гипотез для улучшения продукта;

🔹Гипотезы «прилетают» случайным образом и без какой-либо приоритизации, а часть идей просто теряется;

🔹Нет фиксации результатов и наработанной базы знаний, новые члены команды могут тестировать по кругу одни и те же вещи.

Хорошим решением данных проблем будет создание бэклога гипотез.
Подробно об этом рассказываю в своей новой статье.

#статья
👍14🔥10🤔1
Сегодняшний дайджест посвящен визуализации данных. Поговорим о том, как превратить данные в историю.

Хочется рассказать про Cosmograph – малоизвестный, но очень классный инструмент для визуализации больших графов и, с недавних пор, двумерных эмбеддингов. Это самое быстрое веб-приложение для анализа: оно работает в пределах браузера и использует мощности вашей видеокарты, которая и определяет скорость работы. Можно загрузить CSV-файл с данными и поделиться ссылкой на открывшуюся визуализацию. Вот пример визуализации 7 тыс статей The New York Times.
У приложения есть JavaScript/React библиотеки, поэтому можно добавить визуалы в собственные веб-приложения. Инструмент подходит и для простой отрисовки графиков для презентаций. Еще круче то, что приложение бесплатно и применимо для Process mining, о котором я писал раньше.

Таня Мисютина, создатель и руководитель Лаборатории данных, эксперт Бюро, рассказала об одном из принципов построения визуализации, который звучит так: визуализация должна проявлять закономерности. Наглядный пример принципа в действии: отобразив все случаи землетрясений на карте можно увидеть границы тектонических плит.
Если же визуал ничего нового не показал по сравнению с таблицей, то нужно искать другой способ презентации данных. В серии из двух статей Таня разбирает неудачную футбольную инфографику. В первой статье, Таня предложила алгоритм визуализации сложных данных, состоящий из пунктов: описание полной картины данных, выделение частицы данных, конструирование визуализации. Во второй статье, автор рассказала о своем варианте улучшения диаграммы.

На Medium опубликовано исследование Чэньсинь Ли, научного сотрудника из Центра прикладных генетических технологий в США. Он разобрал (VPN) слабые стороны 12 типов диаграмм для визуализации данных и подсказал решения, как облегчить их прочтение.
Например, круговая диаграмма хороша для отображения дробных данных, доли которых в сумме дают 100%. Но две круговые диаграммы плохо подходят для сравнения данных, так как сложно зрительно оценить размер кусков. В таком случае автор предлагает переходить от пирогов к столбчатым диаграммам с установленной высотой в 100% и этажами разной длины в зависимости от долей.

#дайджест
👍113🔥2
Новый топик канала – легкое чтиво для аналитиков! Сегодня поговорим про ИИ в контексте больших данных.

📚 Artificial Intelligence for Big Data. Complete guide to automating Big Data solutions using Artificial Intelligence techniques
Авторы: Anand Deshpande, Manish Kumar

Книга содержит все темы из популярных курсов по машинному обучению, только бесплатно дешевле. Приведу некоторые из них. Первые две главы сравнивают работу человеческого мозга и искусственного интеллекта, вводится понятие онтология для больших данных. После вас погружают в различия контролируемого и неконтролируемого машинного обучения и нюансы модели программирования Spark.

Далее по сюжету идут нейронные сети, основы глубокого обучения, обработка естественного языка (NLP) и нейро-нечёткие системы. На десерт приберегли системы, подсмотренные у природы: структуры генетических алгоритмов, роевой интеллект (SI) и обучение с подкреплением.

Авторы погружают в технические детали постепенно, начиная с основ. Книга не грузит, легко читается и поэтому вызывает желание разобраться в теме, а не сойти с ума. Аналитикам она позволит подтянуть и утрамбовать базовые понятия из теории машинного обучения. Остальным она объяснит, о чем все эти новомодные словечки и почему ИИ не заменит человека.

Оба автора – сотрудники компании Datametica Solutions и последние 10 лет погружены в тему дата науки и больших данных. Ананд занимает должность директора по реализации продуктов, Маниш – старший архитектор ПО.

К сожалению, книга не переведена на русский язык и издается за рубежом.

🔗Купить печатную версию можно, например, на Амазон.
Электронной версией делюсь с вами.

#книга
👍8🔥51
Python – популярный язык программирования, нежно любимый аналитиками за удобство анализа данных.
2 октября он обзавелся новой версией Python 3.12.

Из интересного:
🔹расширили поддержку многопоточности,
🔹сделали подробнее сообщения об ошибках, 🔹оптимизировали производительность,
🔹увеличили гибкость работы с f-строками.
Сегодня делюсь лайфхаками для тру питонистов.

Свежепереведенная статья на Хабре научит упрощать код с помощью оператора match и расскажет про вариации индексов при создании срезов строк и списков. Match похож на условный оператор и по работе напоминает switch в JavaScript. Доступен с Python 3.10. В сравнении с If-else он упрощает код, позволяет автоматически проверять типы объектов и обращаться к атрибутам объекта в блоках case.
Когда создаете срезы строк, помните, что в квадратных скобках можно указать не только два натуральных числа, но и пустые и отрицательные индексы или даже три индекса сразу.

В проектах, где не используются базы данных, возникает проблема, как собрать все «рукописные» таблицы в один отчет. Хабр-статья научит, как прочитать и объединить разношерстные Excel-файлы в красивый датафрейм с помощью питона. Автор анализирует файлы как XLSB, так и XLSX форматов. В работе пригодятся такие библиотеки PyPi, как recordclass, numba, pyarrow, tqdm и Polars (или Pandas).

Декораторы Python – это мощная фича, которая изменяет поведение функции или класса, не меняя их исходный код.
Выглядит это так: декоратор принимает одну функцию в качестве аргумента, оборачивает ее в другую и возвращают уже новую функцию. Это применяется для замера времени, логирования, и др. Подробнее в статье на Medium (VPN).

Пайплайн, понятие в программировании, описывающее серию операций или функций, идущих друг за другом и преобразующих входные данные. Выход одной операции становится входом следующей, и так далее, пока не будет получен конечный результат. Автор блога на Medium (VPN) затронул тему пайплайнов в питоне и показал, как они помогут писать чистый код.

#дайджест
👍11
Метрики – это «священная корова» любого аналитика. Из-за них мы не спим ночами, а продакты рвут на себе волосы. Решил написать серию постов про метрики, начнем с определения.

Метрика – это качественный или чаще количественный показатель, который отражает ту или иную характеристику, уровень успешности маркетинга, продукта и бизнеса в целом.
Метрики помогают объективно взглянуть на продукт и понять, нужен ли он пользователям, оправдывает ли ожидания бизнеса и принимать на их основе решения.

Хорошая метрика всегда:
1️⃣ чувствительна к изменениям в продукте и лояльности пользователей
2️⃣ управляема и на нее можно повлиять
3️⃣ понятна и растет при улучшениях
4️⃣ сравнима с собой и с рынком
5️⃣ мотивирует действовать, а не прокрастинировать.

В качестве примера приведу такие популярные метрики как DAU и ROMI:

▫️DAU (Daily Active Users) – количество уникальных пользователей, которые открыли сайт или приложение в конкретный день.
Считаем метрику так: приложение установили 10 человек. На следующий день зашли в него 5, DAU будет равен 5, даже если кто-то зашел несколько раз. Если на следующий день никто из 10 пользователей не откроет приложение, то DAU будет равен 0.

▫️ ROMI (Return on Marketing Investment) – коэффициент рентабельности инвестиций в маркетинг, который отражает окупаемость вложений по формуле:
ROMI = (Доходы от маркетинга - Расходы на маркетинг) / Расходы на маркетинг × 100%

У каждой сферы бизнеса свой идеальный показатель ROMI, но он точно должен быть больше 0%, так как это точка безубыточности: такой показатель говорит о том, что инвестиции возвращаются без дохода. Показатель ROMI меньше 0% говорит о том, что вложения в маркетинг не окупаются.

Например, интернет-магазин запустил рекламу стоимостью 3000₽. Она привела покупателей, потративших 9000₽. Тогда ROMI составит (9000 - 3000) / 3000 × 100 = 200%. Вложения окупились и принесли сверху в два раза больше.

Метрик много, они бывают маркетинговыми, продуктовыми и бизнес. Для их систематизации и поиска зависимостей используют различные фреймворки, о которых я расскажу далее под хэштегом #метрики.
🔥18👍122
Дайджест интересных статей за прошедшую неделю.

Креативная аналитика – это сбор и анализ данных, относящихся к маркетинговым материалам или рекламными креативам. Данные анализа покажут, как улучшить креативы и повысить ROAS и ROI. В статье Appsflyer пошагово рассказывается, как использовать креативную аналитику. Помимо ROAS и ROI, стоит отслеживать и другие метрики, например количество показов и CVR.

Аналитика всегда идет рука об руку с диджитал маркетингом, поэтому делюсь полезной статьей от Appsflyer по автоматизации мобильного маркетинга. Сегодня это единственный способ масштабировать усилия маркетологов. Автоматизировать стоит разбивку аудитории на таргетные группы, A/B тестирование, привлечение рефералов, предоставление динамически персонализированного контента и предсказание поведения пользователя на основе прошлого опыта.

Рома Бунин в канале Reveal the data делится чек-листом, когда разрабатывать дашборд – плохая идея. Первым делом задаем вопрос: «Зачем дашборд?». И не тратим на него время, если требуется следить за коротким проектом, за изменением показателей вместо системы алертов, для смены настроек в других системах и отслеживания «нечисловых» целей.

Статья от Maven Analytics (VPN) рассказывает про 8 типичных ошибок в построении дашбордов. Загибайте пальцы, если косячите:
🔹ненужные визуальные элементы, которые автор обзывает как chartjunk;
🔹нет внятного пояснения данным;
🔹бессмысленные заголовки;
🔹неподходящий тип диаграмм;
🔹неподходящие цвета или цвета, которые путают;
🔹пестрый фон;
🔹грамматические ошибки;
🔹круговая диаграмма с кусками больше 5.
Там же вы найдете и хорошие примеры дашбордов.

#дайджест
👍113
Дайджест интересного за неделю.

Очистка данных – один из ключевых навыков дата саентиста. В статье на Medium автор разобрал (VPN), как распознать 5 ловушек, которые скрывают данные, и не угодить в них. Ловушки бывают разных видов:
- потерянные данные,
- отклоняющиеся значения,
- несогласованные данные,
- проблемы с типом данных,
- дубликаты.
В качестве единого решения автор предлагает перенять культуру написания юнит тестов для автоматизации задач по очистке данных и документировать процесс очистки внутри компании.

Яков Осипенков опубликовал руководство, как Python поможет отправить запросы к API GA4, выгрузить данные по стандартным отчетам и сохранить статистику локально. Алгоритм включает в себя: создание проекта в Google Colab для работы с API, добавление сервисного аккаунта, загрузка и подключение приватного ключа, подготовка программы, написание запроса и сохранение данных в формате JSON. В конце руководства дана ссылка на проект, который можно взять за основу при написании собственных запросов.

На русском Medium найдены две замечательные статьи от начинающего автора. Первая посвящена (VPN) базовому фреймворку для дизайна сплит-теста. Перед тестом следует понять цель и проблему, которую продакт и аналитик хотят решить. Иногда в ходе обсуждения необходимость в тесте отпадает, что уже хорошо. Общий алгоритм запуска теста состоит из 9 пунктов. Следуйте ему и не ошибётесь. Автор разложила по полочкам матчасть A/B-теста, которую полезно освежать время от времени.

Вторая статья посвящена оптимизации CRM стратегий (VPN), а именно – RFM-анализу. Это метод исследования поведения пользователей на основе метрик давности (Recency), частоты (Frequency) и суммы затрат (Montory). Реализовать его относительно просто, при этом эффективность метода высокая. Статья расскажет, как применить RFM-сегментацию, чтобы выстроить стратегии коммуникаций и провести post-hoc анализ.
А также, как на практике создать RFM-сегменты при помощи простых методов статистического анализа и кластеризации алгоритмом k-средних.

#дайджест
10
Сегодня обсудим фреймворки для работы с метриками.

В данном контексте под фреймворком понимают набор правил для управления метриками, их систематизации и выявления взаимосвязи друг с другом.

🌟Метрика Полярной звезды (North Star Metric) – инструмент определения главной метрики, отражающей ключевую ценность продукта. Считается, что компания, которая нашла NSM и обуздала ее, точно достигнет целей. На деле NSM подойдет для конкретной фичи или стратегии.

В качестве примера NSM можно привести метрику часов просмотра контента в месяц для онлайн-кинотеатра.

Чтобы найти NSM, нужно:
🔹Определить ключевое направление бизнеса – привлечение, транзакции или продуктивность;
🔹Выявить 3-5 ключевых показателя эффективности (KPI) - метрики, развивающие это направление;
🔹Определить NSM, которая будет воплощать в себе все KPI.

🌲Иерархия или древо метрик инструмент декомпозиции главной метрики на другие, повышающие главный показатель. Построение начинается с главной метрики. Часто это NSM. При ее поиске мы уже заложили основу иерархии: сразу от NSM идут KPI, затем – метрики, повышающие KPI. Обычно достаточно построить 4-5 уровней в иерархии. Для адекватного контроля нужно, чтобы каждая вышележащая метрика зависела только от ее нижних метрик.

Иерархия помогает узнать причины изменения метрик, приоритизировать бэклог и проводить приемку релизов.

🔺Пирамида метрик – следующий этап классификации с учетом целей метрик, заложенных в слои. Каждый бизнес выделяет свои слои. Обычно наверху лежат метрики бизнеса и маржинальности, а ниже – продуктовые и маркетинговые. Иерархия метрик уже заложена в слои пирамиды.

Главное правило пирамиды: верхние бизнес-метрики не должны падать, даже если метрики более низких уровней растут. Например, если YouTube совсем уберет рекламу из видео, скорее всего количество пользователей и просмотров увеличится, но метрики маржинальности упадут, и бизнес потеряет прибыль. Пирамида учитывает взгляд как со стороны бизнеса, так и клиента, и удерживает все показатели в поле зрения.

#метрики
👍232
Свежий дайджест с запахом мандаринов и надвигающихся праздников.

Руководитель команды аналитики Mail в VK рассказал о внутреннем инструменте для работы с данными. Сервис копит знания о событиях в виде слабоструктурированных данных с формализованным описанием. Ребята нестандартно подошли к организации реестра событий: вместо того, чтобы хранить события в Confluence или Google Sheets, они запилили собственный сервис. Его главная польза – сокращение Time-to-Market в продуктах с большим легаси. Автор объяснил, как сервис работает изнутри и как выглядит снаружи. Технари найдут для себя полезные ссылки на статьи о хранении данных.

Другие ребята из Mail рассказали о собственной платформе для проведения A/B-тестов. Недавно она обзавелась полноценной расчетной архитектурой, которая позволяет масштабировать сложность расчетов. Всегда интересно посмотреть, как крупные компании реализуют архитектуру собственных сервисов, а не берут готовое с рынка. Платформа собирает события из всех метрик и размещает их в поюзерной таблице. Для расчетов используется Spark. Ребята добавили аналитический репозиторий со статистическими формулами и скриптами для расчета метрик и кумулятивной таблицы. Теперь, как в лучших традициях self-service, аналитики могут обращаться к репозиторию с минимальным участием разработки.

Инструменты самообслуживания для BI появились в 90-ых, однако до сих пор глобальный уровень внедрения BI составляет 26%. Почему так? Чтобы в компании наступила data-демократия, компания сама должна стать data-driven. Автор блога на Medium (VPN) постулирует три столпа data-driven организации – фреймворк, компоненты компании (люди, процессы и инструменты) и правильные действия. В качестве фреймворка автор строит иерархию потребностей для аналитики по аналогии с пирамидой Маслоу. Основу иерархии составляет сбор данных, а на верхушке – прогнозирование и автоматизация. Чем выше вы поднимаетесь по пирамиде, тем большее доверие к данным одновременно необходимо и обеспечено.

#дайджест
👍14
Что происходит на рынке продуктовых и дата-аналитиков?

Мои друзья из NEWHR очень любят аналитиков и регулярно проводят полезные исследования зарплат и тенденций: 2019г, 2020г, 2022г.

Профессии продуктового и дата-аналитика — среди самых востребованных на рынке. Ребята предлагают узнать, как они изменились в 2023 году и в том числе — как поменялись зарплаты и за счёт чего. А ещё они хотят выяснить, чего сейчас аналитики ждут от работодателей.

🕒 Анкета рассчитана на 20-25 минут. Ответив на простые вопросы, вы сможете рассказать про себя и позже узнать, как обстоят дела у других.

Специалисты выскажутся + работодатели узнают честное мнение = никто не пострадает!

Неважно, как называется ваша должность и где вы сейчас проживаете. Если вы считаете себя продуктовым или дата-аналитиком, то пройдите опрос сами и скиньте коллегам 🙌
Будет суперактуально и тем, кто в найме, и тем, кто нанимает сам.

👉 Пройти опрос
👍6🤔2
Привет, друзья!

Новый год уже почти на пороге, и это отличный повод для того, чтобы пожелать всего самого лучшего в нашем сложном, но увлекательном мире аналитики данных!

Пусть ваши А/В тесты всегда окрашиваются в зеленый цвет успеха, а трекинг будет всегда настроен так безукоризненно, что каждый байт информации будет работать для вас!

Желаю, чтобы ваши ключевые метрики не просто росли, а стремительно взлетали вверх! И конечно же, чтобы ваша зарплата росла вместе с ними!

Верьте в свои силы, не останавливайтесь на достигнутом и всегда идите вперед! Ваша работа важна и ценна.

С наступающим Новым годом🎄
31👍4