Привет! На связи Павел, руководитель группы дата-аналитиков в компании Яндекс eLama 👋
Сегодня на вебинаре разберем две практические задачи, которые помогут вам лучше понять поведение пользователей на вашем продукте. Речь пойдет о ежедневной аудитории и регистрациях.
1️⃣ DAU (Daily Active Users) — ключевая метрика, но она часто бывает «зубастой». Выходные, праздники, запуск рекламы — всё это создает шумы и всплески, которые мешают увидеть настоящий тренд.
Решение: применим два популярных метода сглаживания.
Скользящее среднее (Moving Average)
Это среднее значение метрики за предыдущие N дней (например, за 7 дней). Оно отлично скрывает weekly-seasonality (всплески на выходных) и показывает общий тренд.
Медианное сглаживание (Median Smoothing)
Медиана более устойчива к выбросам (аномальным всплескам или провалам). Если в ваших данных внезапно был «пик» из-за одноразового события, скользящая медиана не даст ему сильно исказить общую картину.
2️⃣ Анализ пиковых регистраций. Как менялись рекорды?
Просто смотреть на общее число регистраций в день — мало. Интереснее ответить на вопрос: «Как наша платформа росла в моменте своего максимального успеха?».
Для этого мы можем посчитать самое высокое пиковое значение регистраций нарастающим итогом.
Суть: для каждого дня мы находим максимальное количество регистраций, которое было достигнуто за всю историю до этого дня.
Этот простой метод наглядно показывает, в какие именно моменты ваш продукт бил свои же рекорды по привлечению новых пользователей. Отличный способ визуализировать ключевые точки роста!
✨ Сегодня на вебинаре мы научимся:
— Считать DAU за каждый день и попробовать его сгладить двумя способами: скользящим средним и медианным сглаживанием.
— Считать, как менялось пиковое значение по ежедневному количеству регистраций на платформе.
➡️ Регистрация на вебинар
Сегодня на вебинаре разберем две практические задачи, которые помогут вам лучше понять поведение пользователей на вашем продукте. Речь пойдет о ежедневной аудитории и регистрациях.
1️⃣ DAU (Daily Active Users) — ключевая метрика, но она часто бывает «зубастой». Выходные, праздники, запуск рекламы — всё это создает шумы и всплески, которые мешают увидеть настоящий тренд.
Решение: применим два популярных метода сглаживания.
Скользящее среднее (Moving Average)
Это среднее значение метрики за предыдущие N дней (например, за 7 дней). Оно отлично скрывает weekly-seasonality (всплески на выходных) и показывает общий тренд.
Медианное сглаживание (Median Smoothing)
Медиана более устойчива к выбросам (аномальным всплескам или провалам). Если в ваших данных внезапно был «пик» из-за одноразового события, скользящая медиана не даст ему сильно исказить общую картину.
2️⃣ Анализ пиковых регистраций. Как менялись рекорды?
Просто смотреть на общее число регистраций в день — мало. Интереснее ответить на вопрос: «Как наша платформа росла в моменте своего максимального успеха?».
Для этого мы можем посчитать самое высокое пиковое значение регистраций нарастающим итогом.
Суть: для каждого дня мы находим максимальное количество регистраций, которое было достигнуто за всю историю до этого дня.
Этот простой метод наглядно показывает, в какие именно моменты ваш продукт бил свои же рекорды по привлечению новых пользователей. Отличный способ визуализировать ключевые точки роста!
✨ Сегодня на вебинаре мы научимся:
— Считать DAU за каждый день и попробовать его сгладить двумя способами: скользящим средним и медианным сглаживанием.
— Считать, как менялось пиковое значение по ежедневному количеству регистраций на платформе.
➡️ Регистрация на вебинар
🔥7❤4👍3
🔥 Прямо сейчас в эфире разбираем реальные бизнес-задачи с помощью SQL
Вступительная часть вебинара уже прошла —начинается самое интересное! Спикер: Павел Беляев — руководитель группы дата-аналитиков в компании Яндекс eLama покажет, как решать бизнес-задачи с помощью SQL.
➡️ Смотреть трансляцию
Вступительная часть вебинара уже прошла —начинается самое интересное! Спикер: Павел Беляев — руководитель группы дата-аналитиков в компании Яндекс eLama покажет, как решать бизнес-задачи с помощью SQL.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2
Встречайте: Георгий Семенов, Chief Data Officer, ментор нового потока курса «Инженер данных».
➡️ Узнать подробности и оставить заявку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤8👍3
Всем привет! На связи Георгий Семенов, Chief Data Officer и ментор нового потока курса «Инженер данных» 👋🏻
Мой путь в инжиниринг данных шёл через аналитику, но не совсем типично.
9 лет назад я работал менеджером продукта в небольшом ламповом финтех-стартапе, где мне приходилось выполнять совершенно разные функции, включая продуктовую аналитику, поскольку отдельного специалиста в команде не было. Я неплохо орудовал SQL и Excel. Но в какой-то момент понял, что на аналитику уходит половина моего времени.
Тогда у меня возникло две мысли:
🟠 Автоматизировать рутинные расчеты, чтобы тратить на них меньше времени.
🟠 Поднять BI-инструмент, чтобы коллеги могли сами быстро посчитать что-то простое.
Так я и сделал. Написал скрипты, которые делали регулярные расчеты, и поставил их на расписание. Для этого мне пришлось изучить Python, Docker, Airflow и другие новые для себя штуки.
Посмотрел бесплатные BI-инструменты — остановился на Superset, развернул его, настроил основные дашборды, и обучил коллег (особенно неайтишных) им пользоваться.
Тогда я нашел себя, и понял, что хочу не только создавать продукты, основываясь на данных, но создавать продукты, основанные на данных, где данные — один из ключевых элементов самого продукта.
А для этого нужно уметь бесперебойно собирать, хранить и обрабатывать данные, предоставлять удобный доступ к ним и обеспечивать высокое качество не только самих данных, но также всех связанных процессов и инструментов.
Я начал развиваться в эту сторону в компаниях, где эти задачи были актуальны. Я переходил на все более сложные дата-платформы, где данных становилось все больше, а источники все изощреннее, изучал новые архитектуры и инструменты.
🧡 Вот как инжиниринг данных превратился для меня из вспомогательного процесса в основную деятельность. И это то, что мне по-прежнему нравится. DE это c виду простая функция, но на самом деле технически интересная и живая область, где постоянно появляются новые инструменты, новые подходы и новые вызовы. И особенно важным это становится в эпоху бурного развития AI, который невозможен без качественного DE.
⚡️ Кстати, небольшой спойлер: уже на следующей неделе в прямом эфире мы поговорим о том, как аналитику перейти в инженерию данных.
А забронировать место на курсе «Инженер данных» можно уже сейчас.
Следите за новостями!
Мой путь в инжиниринг данных шёл через аналитику, но не совсем типично.
9 лет назад я работал менеджером продукта в небольшом ламповом финтех-стартапе, где мне приходилось выполнять совершенно разные функции, включая продуктовую аналитику, поскольку отдельного специалиста в команде не было. Я неплохо орудовал SQL и Excel. Но в какой-то момент понял, что на аналитику уходит половина моего времени.
Тогда у меня возникло две мысли:
Так я и сделал. Написал скрипты, которые делали регулярные расчеты, и поставил их на расписание. Для этого мне пришлось изучить Python, Docker, Airflow и другие новые для себя штуки.
Посмотрел бесплатные BI-инструменты — остановился на Superset, развернул его, настроил основные дашборды, и обучил коллег (особенно неайтишных) им пользоваться.
Тогда я нашел себя, и понял, что хочу не только создавать продукты, основываясь на данных, но создавать продукты, основанные на данных, где данные — один из ключевых элементов самого продукта.
А для этого нужно уметь бесперебойно собирать, хранить и обрабатывать данные, предоставлять удобный доступ к ним и обеспечивать высокое качество не только самих данных, но также всех связанных процессов и инструментов.
Я начал развиваться в эту сторону в компаниях, где эти задачи были актуальны. Я переходил на все более сложные дата-платформы, где данных становилось все больше, а источники все изощреннее, изучал новые архитектуры и инструменты.
А забронировать место на курсе «Инженер данных» можно уже сейчас.
Следите за новостями!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥5👍4👏2
Друзья, привет! На связи команда Simulative 👋
Просто напоминаем вам о том, что скидка до 25% на курс-симулятор «Инженер данных» сгорает уже завтра, 30 августа.
Что вас ждёт на курсе?
🟠 Практика только на реальных бизнес-кейсах и весь необходимый стек: PostgreSQL, Python, Metabase, Clickhouse, Hadoop, Spark / pySpark, Docker и др.;
🟠 Полноценное портфолио из пет-проектов: вы не просто учитесь, а создаёте проекты, которые добавят конкурентного преимущества при поиске работы и сделают вас на шаг ближе к офферу мечты;
🟠 Комфортный темп обучения и удобный формат, полноценная поддержка от группы преподавателей в процессе;
🟠 Карьерная поддержка: помощь с резюме, консультации, подготовка к собеседованиям.
А ментор потока – Георгий Семенов поможет избежать «слепых зон», поделится опытом и поддержит мотивацию до результата.
➡️ Узнать больше о курсе и забронировать скидку
Просто напоминаем вам о том, что скидка до 25% на курс-симулятор «Инженер данных» сгорает уже завтра, 30 августа.
Что вас ждёт на курсе?
А ментор потока – Георгий Семенов поможет избежать «слепых зон», поделится опытом и поддержит мотивацию до результата.
➡️ Узнать больше о курсе и забронировать скидку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍5❤3
Рано или поздно каждый аналитик задумывается о том, что ему нужны навыки инженера данных: кто-то понимает это только изучив азы SQL, а кто-то уже с большим коммерческим опытом.
Чтобы помочь максимально быстро выстроить свою стратегию развития, уже в следующую среду мы проведем вебинар, где Георгий Семенов, Chief Data Officer и ментор нового потока курса «Инженер данных», поделится своим опытом и даст самый актуальный взгляд на то, как быстрее войти в профессию.
На вебинаре вы познакомитесь с ментором и разберете:
❗️ Встречаемся 3 сентября в 19:00 МСК
💬 Обязательно ждем вас в лайве – вы сможете напрямую задать свои вопросы Георгию и получить консультацию крутого практика.
➡️ Регистрация на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍6❤5👏1
Всем привет! На связи команда Simulative 👋
Сегодня рассказываем про этапы отбора в Т-Банк.
Что в этих отборах хорошо — так это то, что процесс един для каждой команды и вы всегда можете быть готовы к следующему:
1️⃣ HR-скрининг. Созваниваетесь по телефону, отвечаете на базовые вопросы про опыт и пожелания к новому месту работы, договариваетесь о времени технического интервью.
2️⃣ Техническое интервью: проверяют все и сразу. Сложность вопросов начинается от самой базы и растёт по ходу интервью. Если уверенно и подробно рассказывать как и почему что-то работает, то часть вопросов могут пропустить. Но не удивляйтесь, когда на интервью для опытных сотрудников вам придется рассказывать, как суммировать строки в SQL.
3️⃣ Знакомство с командами, куда вы прошли по технической части. Возможно, на встречу придет только лидер команды, куда вы договаривались прийти изначально, но бывают случаи, когда приходят коллеги из других команд и даже могут предложить условия лучше.
4️⃣ Проверка службы безопасности, оффер, онбординг.
Сегодня мы подробно разобрали второй пункт — часть с SQL.
Собеседование проходит в три части: SQL, Python, мат.стат + теорвер. В карточках разобрали техническое интервью на SQL. Изучайте 🤓
Кстати, на продвинутых тарифах курса-симулятора «Аналитик данных» (и не только) мы проводим тестовые технические собеседования, чтобы наши студенты были готовы к успешным прохождениям 🧡
Сегодня рассказываем про этапы отбора в Т-Банк.
Что в этих отборах хорошо — так это то, что процесс един для каждой команды и вы всегда можете быть готовы к следующему:
Сегодня мы подробно разобрали второй пункт — часть с SQL.
Как это принято в компаниях с отлаженными процессами, вас будет собеседовать человек, который вообще про вас ничего не знает. Вернее, знает он лишь то, что он должен вас хорошо проверить, потому что именно ему сообщать HR и лидерам команд о вашей технической подготовке. Но не забывайте и про софт-скиллы :)
Собеседование проходит в три части: SQL, Python, мат.стат + теорвер. В карточках разобрали техническое интервью на SQL. Изучайте 🤓
Кстати, на продвинутых тарифах курса-симулятора «Аналитик данных» (и не только) мы проводим тестовые технические собеседования, чтобы наши студенты были готовы к успешным прохождениям 🧡
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤9👍6
Как аналитику стать инженером данных и что вообще он должен знать? 🧐
Для тех, кто задумывается о карьере в инженерии данных, напоминаем о том, что у нас есть большой роадмап дата-инженера.
В нём вы найдете пошаговый план, который поможет выстроить чёткую траекторию обучения и быстрее достичь профессиональных целей, а ещё найдёте ответы на эти вопросы:
🟠 Что инженеру данных знать обязательно, а что — опционально;
🟠 В каком порядке изучать темы, чтобы не запутаться;
🟠 Что нужно освоить в первую очередь, чтобы войти в профессию.
А о том, как из аналитики перейти в инженерию данных, поговорим уже завтра, 3 сентября в 19:00 МСК.
Вебинар проведет Георгий Семенов — Chief Data Officer и новый ментор курса «Инженер данных». Что разберём:
😶 Пути становления и развития дата-инженера;
😶 Необходимые скиллы для прохождения собеседования;
😶 Ситуацию на рынке со стороны нанимателя: компании, грейды и зарплаты.
Роадмап придет вам в бот в формате pdf сразу после регистрации на вебинар.
Для тех, кто задумывается о карьере в инженерии данных, напоминаем о том, что у нас есть большой роадмап дата-инженера.
В нём вы найдете пошаговый план, который поможет выстроить чёткую траекторию обучения и быстрее достичь профессиональных целей, а ещё найдёте ответы на эти вопросы:
А о том, как из аналитики перейти в инженерию данных, поговорим уже завтра, 3 сентября в 19:00 МСК.
Вебинар проведет Георгий Семенов — Chief Data Officer и новый ментор курса «Инженер данных». Что разберём:
Роадмап придет вам в бот в формате pdf сразу после регистрации на вебинар.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥6👍4👏1
Всем привет! На связи Павел Беляев 👋
Сегодня мог быть анонс очередного эфира со мной, но у меня есть новости поинтереснее! В сентябре я стану ментором на новом потоке курса-симулятора «Аналитик данных».
😶 Немного обо мне для тех, кто ещё со мной не знаком:
Я уже более 5 лет руковожу командой аналитиков в компании Яндекс eLama, а также веду телеграм-канал «Тимлидское об аналитике».
Команда аналитиков eLama под моим руководством выполняет следующие задачи:
— разработка и поддержка витрин данных (Clickhouse, SQL);
— автоматизация и оптимизация процессов, связанных с данными: обновление витрин, мониторинг качества данных, чистка устаревшего и т.д.;
— разработка внутренних сервисов аналитики: модель данных, self service и др.;
— настройка веб-аналитики;
— прогнозирование метрик;
— поддержка различных отделов компании требуемыми данными;
— содействие другим аналитикам в сборе, визуализации и интерпретации данных;
— консалтинг и обучение конечных пользователей.
За время работы в сфере аналитики я успел побывать в разных ролях: бизнес-аналитик, веб-аналитик, дата-инженер, дата-аналитик, BI-аналитик, тимлид. Поэтому на личном опыте понимаю, как выглядит в бизнесе вся цепочка обработки данных от потребности до выводов.
Уверен, что мой опыт поможет студентам привязать полученные знания к реальным бизнес-задачам из деловой жизни!
‼️ Новый поток курса-симулятора «Аналитик данных» стартует уже в сентябре. А до 12 сентября на курс действуют ранние цены -25%.
➡️ Узнать подробнее и забронировать место на потоке
Сегодня мог быть анонс очередного эфира со мной, но у меня есть новости поинтереснее! В сентябре я стану ментором на новом потоке курса-симулятора «Аналитик данных».
Я уже более 5 лет руковожу командой аналитиков в компании Яндекс eLama, а также веду телеграм-канал «Тимлидское об аналитике».
Команда аналитиков eLama под моим руководством выполняет следующие задачи:
— разработка и поддержка витрин данных (Clickhouse, SQL);
— автоматизация и оптимизация процессов, связанных с данными: обновление витрин, мониторинг качества данных, чистка устаревшего и т.д.;
— разработка внутренних сервисов аналитики: модель данных, self service и др.;
— настройка веб-аналитики;
— прогнозирование метрик;
— поддержка различных отделов компании требуемыми данными;
— содействие другим аналитикам в сборе, визуализации и интерпретации данных;
— консалтинг и обучение конечных пользователей.
За время работы в сфере аналитики я успел побывать в разных ролях: бизнес-аналитик, веб-аналитик, дата-инженер, дата-аналитик, BI-аналитик, тимлид. Поэтому на личном опыте понимаю, как выглядит в бизнесе вся цепочка обработки данных от потребности до выводов.
Уверен, что мой опыт поможет студентам привязать полученные знания к реальным бизнес-задачам из деловой жизни!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤6👍2
О значимости времени и стандартов
Всем привет! На связи Георгий Семенов, Chief Data Officer и ментор нового потока курса «Инженер данных».
Давным-давно, еще в доковидные времена, нам понадобилось настроить сбор ежедневных статистик наших мобильных приложений из личного кабинета Apple Developer.
Настроили импорт через API — миссия выполнена. Но не тут-то было. Данные не сходились с другим источником, который мы использовали для учета установок и сессий приложений (Appsflyer).
Довольно быстро выяснили, что Apple отдает даты в таймзоне Pacific Time, который меньше UTC на 7 часов летом и на 8 зимой, тогда как мы всегда использовали UTC. Сейчас Apple уже умеет в UTC, но тогда это стало для нас проблемой, ведь мы не могли сверить свои финансовые и продуктовые отчеты. Хорошо, что нам было с чем сверять. Иначе ошибка могла пройти незамеченной — и такое случается.
А ведь большинство табличных данных — это time-series.
И да — для этого недостаточно указать дефолтную timezone в настройках вашей Базы Данных.
В том или ином виде я постоянно сталкиваюсь с проблемами смещения времени и их последствиями. Если модель данных хранилища недостаточно хорошо спроектирована, то потребителю данных будет очень легко упустить различие между таймстэмпами и сравнить несравнимое: PT с UTC, дату события с датой получения события.
И дело не только во времени. Другие поля (идентификаторы, денежные суммы, категории и прочее) часто имеют в разных источниках разные названия, типы данных и форматы значений даже для одних и тех же реальных объектов. Все это серьезно осложняет задачу получения ценности из данных.
Во многом, именно поэтому считается, что 80% работы аналитика — это очистка и подготовка данных. Но качественная работа архитекторов и инженеров данных может в несколько раз упростить аналитику жизнь.
И что, например, поле business_dttm во всех time-series таблицах является первичным ключом партиции и имеет тип timestamp с таймзоной UTC, а колонка product_id во всех таблицах означает одну и ту же сущность (по крайней мере, в рамках одного бизнес-домена, но это уже отдельная история).
Так они совершат меньше ошибок и зададут вам меньше вопросов. Особенно, если среди них есть неискушенные бизнес-пользователи, а у вас self-service BI.
⁉️ Так как же мы решили этот кейс?
Поскольку date, в отличие от datetime, нельзя конвертировать в наш стандартный часовой пояс, то надо явно дать понять пользователю о нестандартной ситуации. И если мы называли поле с датой business_date, то это назвали business_date_pacific_time.
💬 А как бы сделали вы? Пишите в комментариях)
И если у вас были похожие истории — тоже обязательно поделитесь!
Всем привет! На связи Георгий Семенов, Chief Data Officer и ментор нового потока курса «Инженер данных».
Давным-давно, еще в доковидные времена, нам понадобилось настроить сбор ежедневных статистик наших мобильных приложений из личного кабинета Apple Developer.
Настроили импорт через API — миссия выполнена. Но не тут-то было. Данные не сходились с другим источником, который мы использовали для учета установок и сессий приложений (Appsflyer).
Довольно быстро выяснили, что Apple отдает даты в таймзоне Pacific Time, который меньше UTC на 7 часов летом и на 8 зимой, тогда как мы всегда использовали UTC. Сейчас Apple уже умеет в UTC, но тогда это стало для нас проблемой, ведь мы не могли сверить свои финансовые и продуктовые отчеты. Хорошо, что нам было с чем сверять. Иначе ошибка могла пройти незамеченной — и такое случается.
А ведь большинство табличных данных — это time-series.
Время — это основной ключ партицирования данных в хранилище, используемый для фильтрации, группировки и даже JOIN. Поэтому очень важно, чтобы все обработанные данные хранились в едином часовом поясе.
И да — для этого недостаточно указать дефолтную timezone в настройках вашей Базы Данных.
В том или ином виде я постоянно сталкиваюсь с проблемами смещения времени и их последствиями. Если модель данных хранилища недостаточно хорошо спроектирована, то потребителю данных будет очень легко упустить различие между таймстэмпами и сравнить несравнимое: PT с UTC, дату события с датой получения события.
И дело не только во времени. Другие поля (идентификаторы, денежные суммы, категории и прочее) часто имеют в разных источниках разные названия, типы данных и форматы значений даже для одних и тех же реальных объектов. Все это серьезно осложняет задачу получения ценности из данных.
Во многом, именно поэтому считается, что 80% работы аналитика — это очистка и подготовка данных. Но качественная работа архитекторов и инженеров данных может в несколько раз упростить аналитику жизнь.
Поэтому я обобщу свою мысль — для хранилища очень важна стандартизация: таймзон, типов данных, названий, значений и много чего еще.
Структура вашего хранилища должна быть максимально понятной. Чтобы ваши коллеги даже без обращения к документации понимали где какие данные искать.
И что, например, поле business_dttm во всех time-series таблицах является первичным ключом партиции и имеет тип timestamp с таймзоной UTC, а колонка product_id во всех таблицах означает одну и ту же сущность (по крайней мере, в рамках одного бизнес-домена, но это уже отдельная история).
Так они совершат меньше ошибок и зададут вам меньше вопросов. Особенно, если среди них есть неискушенные бизнес-пользователи, а у вас self-service BI.
Поскольку date, в отличие от datetime, нельзя конвертировать в наш стандартный часовой пояс, то надо явно дать понять пользователю о нестандартной ситуации. И если мы называли поле с датой business_date, то это назвали business_date_pacific_time.
💬 А как бы сделали вы? Пишите в комментариях)
И если у вас были похожие истории — тоже обязательно поделитесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍5🔥4
Уже через пару часов встречаемся на вебинаре! Приходите, буду рад всех видеть 🧡
Обсудим:
😶 Какие навыки нужны для работы в ДЕ
😶 Необходимые скиллы для прохождения собеседования
😶 Ситуацию на рынке со стороны нанимателя: компании, грейды и зарплаты
😶 Пути развития дата инженера
➡️ Зарегистрироваться на вебинар
Обсудим:
➡️ Зарегистрироваться на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥2
Привет! На связи Павел Беляев — автор канала Тимлидское об аналитике и ментор курса «Аналитик данных» 👋
Сегодня хочу немного пояснить, почему аналитику нужно хотя бы примерно ориентироваться во многих темах.
Ценность аналитики заключается в том, что представитель бизнеса может принимать решения на её основе.
А для этого данные следует прогнать через несколько процессов и стадий. Я называю этот путь конвейером данных.
Конвейер данных включает в себя следующие основные этапы:
1️⃣ Формирование вопросов
2️⃣ Сбор данных
3️⃣ Преобразование данных
4️⃣ Визуализация
5️⃣ Анализ
6️⃣ Решение
Путь данных весьма насыщен приключениями и этим он интересен!
Курс «Аналитик данных» достаточно комплексно составлен и затрагивает все эти этапы, чем меня и впечатлил.
❗️ И напоминаю, что до 12 сентября у вас есть возможность попасть на курс со скидкой -25%. Успевайте ей воспользоваться и желаю успехов в аналитике, коллеги!
➡️ Узнать больше о курсе и забронировать скидку
Сегодня хочу немного пояснить, почему аналитику нужно хотя бы примерно ориентироваться во многих темах.
Ценность аналитики заключается в том, что представитель бизнеса может принимать решения на её основе.
А для этого данные следует прогнать через несколько процессов и стадий. Я называю этот путь конвейером данных.
Конвейер данных включает в себя следующие основные этапы:
Сначала определяется потребность в информации, подбираются метрики и методы анализа, а также составляется перечень необходимых данных.
Сырые, необработанные данные собираются из источников в аналитическое хранилище (АХ), где и производится всяческая аналитическая «магия».
В качестве АХ могут использоваться различные системы управления базами данных (СУБД), например, Clickhouse или PostgreSQL.
Запросы к СУБД выполняются на языке SQL. А процессы сбора и транспорта данных осуществляются специальными инструментами, например, Airflow, который «дирижирует» Python-скриптами.
Сырые данные «готовятся», а блюдом являются витрины данных: таблицы, содержащие отфильтрованные строки, рассчитанные метрики, сгруппированные сегменты и прочие результаты реализации бизнес-логики.
С данными производятся операции фильтрации, объединения, расчета, приведения к нужному виду и т.д. Обычно для этого используются языки SQL или Python.
Витрины служат источниками для отчетов или дашбордов, содержащих графики, чарты, диаграммы и прочую «наглядную красоту», которая помогает пользователю быстро сориентироваться в информации и сделать нужные выводы.
Визуализация делается с помощью соответствующих инструментов: Power BI, Data Lens, Looker Studio, Metabase и др.
Собственно, процесс изучения, осознания ситуации, а также формирования выводов, ответов на поставленные вопросы.
Рассчитанные метрики сопоставляются с некими желаемыми эталонами, изучаются тренды, обнаруживаются и обосновываются выбросы, проседания и т.д.
На основе выводов решается —достигнуты ли цели, что делать дальше, работает ли новая фича и т.п.
Путь данных весьма насыщен приключениями и этим он интересен!
Курс «Аналитик данных» достаточно комплексно составлен и затрагивает все эти этапы, чем меня и впечатлил.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥7👍3