Datalytics – Telegram
Datalytics
9.03K subscribers
219 photos
17 videos
5 files
674 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from LEFT JOIN
Мы собрали уже 250 ответов на опрос 🔥🔥🔥

Большое спасибо всем, кто уже принял участие, вы большие молодцы! Огромная просьба к тем, кто еще планирует пройти — отвечать про один конкретный курс, про который вы хотите рассказать.

Мне бы очень хотелось собрать как минимум 500 ответов (а лучше 1000), чтобы выборка респондентов была полноценной, поэтому большая просьба принять участие, если вы обучались на каком-либо платном курсе по аналитике / data science / data engineering и поделиться своими впечатлениями.

По планам на результаты: скорее всего, на выходе будет дашборд с ответами в Tableau Public + презентация с выводами, которую можно прочитать.

Помимо этого, мы хотим сделать некоторый выпуск, где голосом обсудим самые интересные случаи как успешного, так и разочаровавшего образования онлайн.

➡️ Поэтому прошу всех пройти опрос про онлайн-курсы и рассказать про свой опыт 📢📢📢

А коллег-авторов телеграм-каналов снова прошу о репосте, чтобы получить побольше охвата и отзывов о курсах.
Вчера я написал про то, что математика как область знаний оказала сильное влияние на мою жизнь: на восприятие своих мыслительных способностей, на восприятие себя как профессионала

Я много общаюсь с аналитиками: как с джунами, так и с уже крепко стоящими на ногах спецами, так и с теми, кого можно называть экспертами отрасли. И у всех разное отношение к математике в профессии аналитика. Естественно, что это отношение вытекает из множества факторов: какие задачи аналитика решает в компании, уровень аналитической культуры в компании, какие вузы оканчивало большинство сотрудников компании

19 ноября на конференции Матемаркетинг я поделюсь результатами своих наблюдений: расскажу как математика помогает в аналитике, про то какую роль математика играет в жизни аналитиков, с какими инструментами оценки математических навыков сталкиваются соискатели в найме, почему между знанием математики и знанием статистики нельзя ставить знак равенства. Также попробуем вместе разобраться с тем как можно подтянуть свои навыки математики и что делать, если вы уже занимаетесь аналитикой, но до сих пор чувствуете себя «математическим самозванцем»

Очень рад, что Матемаркетинг в этом году состоится в оффлайне. Огромная благодарность всем организаторам, что взяли на себя смелость проводить мероприятие вживую в такое сложное время. Это очень ценно! Алексей Никушин Kseniia Baidina Роман Беднарский
Делюсь промокодом на мероприятие MM10, который дает скидку 10%!
Ну и картинка для привлечения внимания — моё первое публичное выступление на конференции iMetrics-2012. Кажется с тех пор ораторские скиллы прокачал, будет отличная возможность для меня ещё раз в этом убедиться 🙂

https://matemarketing.ru/
Только сегодня досмотрел митап от EXPF и СберМаркет - https://youtu.be/1blbhx9BYxk.
Для меня самым интересным был доклад Виталия Черемисина про чувствительность метрик. Виталий очень доступно все разжевал и рассказал о том, как оценивать эту самую чувствительность метрик. Ниже небольшой конспект этой части его выступления.

Для того, что оценить чувствительность той или иной метрики, нужно моделировать рост нашей метрики на некоторой выборке и оценивать, при каком условии чувствительность максимальная.

1. Нужно взять некоторую группу пользователей, разбить ее на две группы, так чтобы в обеих группах наша метрика была равна.

2. Выбрать несколько значений uplift. Шаг может быть разным, исходя из эмпирического опыта.

3. И по каждому из значений uplift нужно произвести операции:
- В одной из выборок (пусть она будет B) увеличить значение метрики на величину uplift. Это нужно делать не коэффициентом умножить на вреднее, а некоторым пользователям добавить конверсии, каким-то убрать - в результате получится полноценная выборка с дополнительными конверсиями.
- Делать множественные подвыборки (например, 1000) из обеих групп, сравнивать их показатели, рассчитывать pvalue.
- В результате у нас получится 1000 значений pvalue. Считаем, какой в каком проценте из них pvalue был ниже 0,05. Например, их будет 65%. Вот это процент и есть чувствительность нашей метрики при увеличении на некоторую величину.
- Фиксируем данные. И то же самое теперь производим с остальными значениям uplift.

4. В результате у нас получится таблица, в которой у нас посчитана чувствительность метрики при разных значениях ее увеличения. И можно сделать вывод, при каком росте конверсии можно рассчитывать зафиксировать эффект, если он есть.

Для чего это можно использовать:
1. Чтобы сделать вывод, нужно при проводить эксперимент. Например, выяснится, что, чтобы получить чувствительность 80%, нужно увеличить конверсию на 30%, что считается невозможным при данных изменениях. Значит, на данный момент нужно отказаться от тестирования данной гипотезы.
2. Чтобы приоритизировать гипотезы для проведения экспериментов. Проверив чувствительность многих метрик и предполагая их увеличение на определенный процент, можно понимать, какие гипотезы про какие метрики являются более перспективными с точки зрения возможности увидеть положительный эффект. Становится понятно, с каких метрик и каких гипотез лучше начать тестирование изменений.
Приглашаем на митап по аналитике от EXPF x Delivery Club

Программа:
— «Что делать, если возникли сомнения, подходит ли твой критерий для твоего теста (а они должны возникать!)», Тимур Исмагилов, Avito

— «Платформа switchback-экспериментов в Ситимобил», Артём Солоухин, Cитимобил

— «Как мы ищем точки роста в продукте: пошаговая инструкция», Владимир Абазов, Delivery Club

— «Скрытая угроза ранговых критериев», Егор Семин, EXPF

Когда: 25 ноября 2021, 18:00—20:00
Где: online

Регистрация и детали: https://expf.ru/expf_dc
Как меняется лексика русского языкаисследование Яндекса и Прожито. Можно посмотреть, например, "узодяшие" из лексикона слова: докучный, закаиваться, мазурик.

Еще очень хочется написать, что студенты ПАНДАН-а в ЕУ тоже работали с данными прожито по дневникам подростков и обучили языковую модель, способную писать очень похожие тексты (почти не отличить от настоящих). Ребята супер молодцы и шлю им ❤️
🔥1
По мотивам выступления на Матемаркетинг-2021 Павел Левчук сделал пост, в котором дал введение в Матрицу Вовлеченности. Матрица Вовлеченности это простой и эффективный инструмент для ранжирования ваших фичей по осям: (Х) Популярность фичи и (У) Интенсивность использования.

Этот подход позволяет получить быстрое представление о том, где в продукте потенциально создается ценность для клиента.

https://ecommerce-in-ukraine.blogspot.com/2021/11/engagement-matrix.html
Forwarded from DataEng
Прикольная визуализация работы pandas: https://pandastutor.com/index.html
Удобно при изучении этой крутой библиотеки.
BIpedia - канал про BI аналитику, в котором вы найдете:
— Возможность предложить нам статью для перевода;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Полезности с канала:
Зарплаты BI специалиста
Инструменты для анализа
Развитие BI систем

Присоединяйтесь, давайте расти как профессионалы вместе 😉
Подписаться: @bi_wiki
Чтобы понимать, как в продукте создается ценность, важно спрашивать себя - как именно клиенты пользуются вашим продуктом:
-- есть фичи которыми пользуются интенсивно в течение дня, но не регулярно.
-- а бывает наоборот - клиенты пользуются фичами регулярно в течение месяца, но не так интесивно в течение дня.

Я уже делился постом про Матрицу Вовлеченности — простой и эффективный инструмент для ранжирования фич по популярности и интенсивности использования. Павел Левчук написал второй пост из серии постов про продуктовую аналитику по мотивам своего выступления на Матемаркетинг-2021 — про Матрицу Интенсивности

https://ecommerce-in-ukraine.blogspot.com/2021/12/intensity-matrix.html
Forwarded from Data Nature 🕊 (Alex Barakov)
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел достойный внимания Tableau Data Viz Catalogue от Zen Master Toan Hoang - сборник туториалов по построению чартов. Такой viz каталог адаптируется в BI культуру компании - работает как "How to" инструкция для разработчиков и дополняет BI стайл гайд.

Этот пример отличается различимым авторским почерком, здесь мне кажется 20% чартов имеют нетипичный и интересный (хотя местами на любителя) дизайн.

Есть и другие хорошие виз-каталоги tableau:
- Design Tip Catalogue | by Zak Geis (увидел у Reveal the Data)
- The Tableau Chart Catalog by Kevin Flerlage
- Tableau Cook Book by Josh Weyburne
- Visual Vocabulary by Andy Kriebel

#tableautips #инфодизайн
Forwarded from Reveal the Data
🧑‍🎓 Матрица компетенций BI-аналитика
Сделал матрицу компетенций, она родилась за год большой работы по менторству BI-аналитиков и «сериала» с Русланом. С радостью и гордостью хочу поделиться ей с комьюнити. Получилось круто.

Матрица будет полезна и новичкам — есть подсветка проседающих навыков и ссылки на учебные материалы. И компаниям — для составления планов развития сотрудников.

Необходимо оценить себя по 68 навыкам из 6 направлений, которые важны BI-аналитику на мой взгляд. Каждый навык имеет уровень «прокачки» от 1 до 4 и описание, с примером ожиданий знаний от уровня. Но это только пример, при сомнениях, оцените навык по ощущениям от «джун» до «лид».

Матрица – не истина в последней инстанции, а ориентир и быстрый способ оценить себя. В идеале должна заполняться вместе с ментором, кто мог бы валидировать результат и дать практику.

Большое спасибо всем, кто помогал и участвовал в тестировании. Буду рад идеям, ссылкам и примерам результатов в комментариях.

🔗 Ссылка
#избранное
Алексей Селезнев опубликовал на хабре статью, в которой собрал пакеты реализующие на R популярные приёмы Python.

● Декораторы
● Множественное присваивание
● Списковые включения
● Индексирование с нуля
● Обработка исключений (try - except)
● Классическое ООП в R
● Логирование (logging)
● Работа с табличными данными (pandas)

https://habr.com/ru/post/587480/

Подписывайтесь на канал Алексея про использование языка R – https://news.1rj.ru/str/R4marketing
Хорошая статья на Хабре с подборкой прикладных задач аналитики данных, решённых на SQL. Отличный материал для того, чтобы рассмотреть различные подходы и самые распространенные проблемы на понятных и доступных примерах. Например, есть задачи на работу с пропущенными значениями, временными рядами и дубликатами. В общем, всё что я обычно всегда играючи делал в Pandas, но как решить на SQL меня всегда смущало (уж не силён я в нём)

https://habr.com/ru/company/otus/blog/541882/
Forwarded from Reveal the Data
🎄Итоги года
Я люблю итоги года, для меня это время выгрузить данные и поиграться. Сделал дашборд про каналы, по которым были данные за год и я знаком с авторами. Они крутые эксперты, спасибо им, что готовы делиться информацией! Рекомендую. Полный список за чем слежу сам тут.

Виз получился аля «bar-chart race на максималках». Прикольно двигать ползунок. Если выбрать скейл «год», то видно топ постов за все время, есть необычные инсайты. Например, топ-1 это этот пост в канале Андрея Дорожного =) А вот связи между каналами можно увидеть в проекте Left Join и Андрея.

📈 Приятно удивлён приросту подписчиков за год. Мне казалось, что потенциальная аудитория сильно меньше. Рад, что вам полезно и интересно!

📊 Самые-самые материалы за год
Матрица компетенций
Зарплаты аналитиков за год
Визуализация городов России
Сериал «Залейтай в BI»
— Статьи про анализ стандрт IBCS и Dashboard Canvas
— Выступления на Матемаркетинге 2020 и DataTalks 3.0

П.С. Спасибо Егору Ларину за помощь с парсингом в Knime
Наткнулся на любопытную статью с описанием 6 трендов в сфере работы с данными, которые будут (а может и не будут) популярны в 2022

Список такой:
1️⃣ Data Mesh
2️⃣ Metrics Layer
3️⃣ Reverse ETL
4️⃣ Active Metadata & Third-Gen Data Catalogs
5️⃣ Data Teams as Product Teams
6️⃣ Data Observability

В целом, видно смещение в область data governance и изменение парадигмы восприятия данных крупными компаниями не как побочного следствия жизнедеятельности продукта/сервиса/системы, а как одного из ключевых элементов — можно сказать топлива для принятия решений и для роста показателей (отсюда вытекает тезис «Data Teams as Product Teams»). Как следствие, увеличивающаяся демократизация данных и сфокусированность на всех сегментах потребителей данных (как менеджерах, так и analysts/data scientists), гибкость в архитектурных решениях (см. Data Mesh), но в то же время унификация для избежания рассогласованности (см. Data Catalogs и Metrics Layer), а также концентрация на качестве и устойчивости сбора данных (см. Data Observability + Data Quality является одной зон отвественности оунеров данных в рамках концепции Data Mesh)

Решил выложить серию постов про каждый из трендов с коротким описанием тренда и почему он значим:
- Пост про Data Mesh
- Пост про Metrics Layer
Тренды в сфере работы с данными 2022. Основной пост

1️⃣ Data Mesh

Признаться честно, меня всегда пугают новые термины, которым нельзя дать конкретное определение. На мой взгляд, такие термины рискуют стать buzzword. Data Mesh как раз такой термин — дать его определение в одном предложении сложно. Это не какая-то конкретная технология/технологический стек или процесс. Правильнее назвать это концепцией хранения данных

Data Mesh появляется в противовес централизованным хранилищам данных. Можно сказать, что это микросервисная архитектура хранения данных, в которой существует некоторое количество разнородных источников данных с высокой атомарностью

У каждого хранилища может быть свой бизнесовый оунер (продуктовая команда, бизнес-юнит, департамент), своя команда дата-инженеров или дата-менеджеров и своя собственная внутренняя архитектура. По сути каждый оунер становится владельцем некоторого куска данных, которым он волен распоряжаться самостоятельно в соответствии с целями, которые стоят перед ним. Такой подход обеспечивает гибкость бизнес-юнитам и позволяет быстрее концентрироваться на стратегических и тактических целях в обход «инфраструктурной бюрократии», которая возникает при централизации. Полная свобода в принятии решении о дата-архитектуре

Но при этом важным моментом является то, что эта свобода налагает ответственность перед любым потребителем данных, например, смежной продуктовой командой или аналитическим отделом любого департамента. Эта ответственность заключается в том, чтобы обеспечить удобный открытый интерфейс к данным, качество данных, их документацию, политики безопасности. То есть любой потребитель должен прийти за данными и получить то, что он хочет с минимумом болей. При этом, потребителем может выступать как менеджер, которому нужен self-service интерфейс, так и data engineer, которому нужен доступ к raw data, так и аналитик, которому необходима некоторая витрина

Как мне кажется, этот подход применим для крупных организаций, где существует несколько бизнес-юнитов или крупных продуктовых команд, но при этом возникает регулярная потребность обмена данными

Почитать про принципы Data Mesh можно вот тут
Тренды в сфере работы с данными 2022. Основной пост

2️ Metrics Layer

Принятие решение в data-driven бизнесах основывается на метриках. При этом для качественного принятия решения различными акторами/юнитами требуется, чтобы метрика могла быть одинаково подсчитываема всеми участниками. То есть не должно быть такого, что в Отделе A метрику считают по одной методологии, а в Отделе B метрика считается совсем по-другому из-за того, что они используют другой BI-инструмент

Другое важное условие — это то, что метрика должна быть рассчитываема в разных срезах, за разный временной срок, разными отделами для разных нужд, с разной точностью. Одна и та же метрика может использоваться по-разному. Аналитическому отделу для оценки результатов A/B-тестирования нужен инструмент получения атомарных данных, на основе которых рассчитывается эта метрика в эксперименте. Отделу Data Science данные по этой метрике могут быть нужны в real-time для использования в алгоритме. А операционному блоку нужна просто агрегированная метрика за последние 30 дней в разрезе регионов. Но с точки зрения бизнес-логики расчетов все эти потребители должны получать одинаковую метрику

Metrics Layer — это технологическое решение, позволяющее обеспечить однозначность метрики, её документированность, вычислимость для различных нужд (с разной скоростью и разной точностью вычислений), качество и стандартизированность получения

Ещё Metrics Layer называют Headless BI (безголовый BI), потому что по сути это такой business intelligence as code, то есть без графического интерфейса. Графический интерфейс в виде BI-платформы с дашбордам уже прикручивается сверху на Headless BI в случае, если для решения бизнес-задачи нужна визуализация метрики, но внутри BI-платформы не зашивается бизнес-логика расчёта метрики

Больше всего мне понравилось описание унифицированной платформы расчёта метрик uMetric от Uber. Они хорошо описали основные вызовы, которые их платформа решает с помощью унификации подсчёта метрик