Simulative – Telegram
7.39K subscribers
1.7K photos
70 videos
1 file
1.26K links
Привет! Мы — образовательная платформа в сфере аналитики Simulative: simulative.ru

Создаём курсы-симуляторы, где обучаем не на «апельсинках», а на кейсах из реального бизнеса.

Наш уютный чат: @itresume_chat
Поддержка: @simulative_support
Download Telegram
Привет! На связи Павел, руководитель группы дата-аналитиков в компании Яндекс eLama 👋

Сегодня на вебинаре разберем две практические задачи, которые помогут вам лучше понять поведение пользователей на вашем продукте. Речь пойдет о ежедневной аудитории и регистрациях.

1️⃣ DAU (Daily Active Users) — ключевая метрика, но она часто бывает «зубастой». Выходные, праздники, запуск рекламы — всё это создает шумы и всплески, которые мешают увидеть настоящий тренд.

Решение: применим два популярных метода сглаживания.

Скользящее среднее (Moving Average)

Это среднее значение метрики за предыдущие N дней (например, за 7 дней). Оно отлично скрывает weekly-seasonality (всплески на выходных) и показывает общий тренд.

Медианное сглаживание (Median Smoothing)

Медиана более устойчива к выбросам (аномальным всплескам или провалам). Если в ваших данных внезапно был «пик» из-за одноразового события, скользящая медиана не даст ему сильно исказить общую картину.

2️⃣ Анализ пиковых регистраций. Как менялись рекорды?

Просто смотреть на общее число регистраций в день — мало. Интереснее ответить на вопрос: «Как наша платформа росла в моменте своего максимального успеха?».

Для этого мы можем посчитать самое высокое пиковое значение регистраций нарастающим итогом.

Суть: для каждого дня мы находим максимальное количество регистраций, которое было достигнуто за всю историю до этого дня.

Этот простой метод наглядно показывает, в какие именно моменты ваш продукт бил свои же рекорды по привлечению новых пользователей. Отличный способ визуализировать ключевые точки роста!

Сегодня на вебинаре мы научимся:

— Считать DAU за каждый день и попробовать его сгладить двумя способами: скользящим средним и медианным сглаживанием.

— Считать, как менялось пиковое значение по ежедневному количеству регистраций на платформе.

➡️ Регистрация на вебинар
🔥74👍3
This media is not supported in your browser
VIEW IN TELEGRAM
👍83
🔥 Прямо сейчас в эфире разбираем реальные бизнес-задачи с помощью SQL

Вступительная часть вебинара уже прошла —начинается самое интересное! Спикер: Павел Беляев — руководитель группы дата-аналитиков в компании Яндекс eLama ​​покажет, как решать бизнес-задачи с помощью SQL.

➡️ Смотреть трансляцию
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62
⚡️ Для тех, кто хотел углубиться в инженерию данных, мы подготовили кое-что интересное!

Встречайте: Георгий Семенов, Chief Data Officer, ментор нового потока курса «Инженер данных».

🟠 Более 14 лет Георгий управляет IT-проектами и продуктами, командами инженеров и аналитиков. Последние 7 лет внедрял и развивал аналитические решения и платформы на сеньорных и руководящих позициях в компаниях VK, Wildberries, СТС, ЦУМ, ВТБ. В настоящее время партнер и CDO в стартапе Ai-Minds.

🟠 Георгий имеет богатый опыт в области Data Governance, Data Architecture, Data Engineering, Business Intelligence. Работал с различными технологиями и архитектурами данных, инфраструктурами от одного до сотен серверов, десятков петабайт данных и десятков тысяч датасетов. Вывел в прод сотни пайплайнов и десятки дата-продуктов, включая ML-сервисы.

🟠 Кроме того, Георгий преподает анализ данных в НИУ ВШЭ, а также провел более 150 индивидуальных консультаций, поэтому в его менторской экспертизе можно не сомневаться!

🧡 Кстати, до 30 августа на поток с Георгием можно записаться по самым ранним ценам: со скидкой 25%.

➡️ Узнать подробности и оставить заявку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥98👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥86👏3
Всем привет! На связи Георгий Семенов, Chief Data Officer и ментор нового потока курса «‎Инженер данных»👋🏻

Мой путь в инжиниринг данных шёл через аналитику, но не совсем типично.
9 лет назад я работал менеджером продукта в небольшом ламповом финтех-стартапе, где мне приходилось выполнять совершенно разные функции, включая продуктовую аналитику, поскольку отдельного специалиста в команде не было. Я неплохо орудовал SQL и Excel. Но в какой-то момент понял, что на аналитику уходит половина моего времени.

Тогда у меня возникло две мысли:

🟠 Автоматизировать рутинные расчеты, чтобы тратить на них меньше времени.
🟠 Поднять BI-инструмент, чтобы коллеги могли сами быстро посчитать что-то простое.

Так я и сделал. Написал скрипты, которые делали регулярные расчеты, и поставил их на расписание. Для этого мне пришлось изучить Python, Docker, Airflow и другие новые для себя штуки.
Посмотрел бесплатные BI-инструменты — остановился на Superset, развернул его, настроил основные дашборды, и обучил коллег (особенно неайтишных) им пользоваться.

Тогда я нашел себя, и понял, что хочу не только создавать продукты, основываясь на данных, но создавать продукты, основанные на данных, где данные — один из ключевых элементов самого продукта.

А для этого нужно уметь бесперебойно собирать, хранить и обрабатывать данные, предоставлять удобный доступ к ним и обеспечивать высокое качество не только самих данных, но также всех связанных процессов и инструментов.

Я начал развиваться в эту сторону в компаниях, где эти задачи были актуальны. Я переходил на все более сложные дата-платформы, где данных становилось все больше, а источники все изощреннее, изучал новые архитектуры и инструменты.

🧡 Вот как инжиниринг данных превратился для меня из вспомогательного процесса в основную деятельность. И это то, что мне по-прежнему нравится. DE это c виду простая функция, но на самом деле технически интересная и живая область, где постоянно появляются новые инструменты, новые подходы и новые вызовы. И особенно важным это становится в эпоху бурного развития AI, который невозможен без качественного DE.

⚡️ Кстати, небольшой спойлер: уже на следующей неделе в прямом эфире мы поговорим о том, как аналитику перейти в инженерию данных.

А забронировать место на курсе «‎Инженер данных»‎ можно уже сейчас.

Следите за новостями!
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥5👍4👏2
Друзья, привет! На связи команда Simulative 👋

Просто напоминаем вам о том, что скидка до 25% на курс-симулятор «Инженер данных» сгорает уже завтра, 30 августа.

Что вас ждёт на курсе?

🟠 Практика только на реальных бизнес-кейсах и весь необходимый стек: PostgreSQL, Python, Metabase, Clickhouse, Hadoop, Spark / pySpark, Docker и др.;
🟠 Полноценное портфолио из пет-проектов: вы не просто учитесь, а создаёте проекты, которые добавят конкурентного преимущества при поиске работы и сделают вас на шаг ближе к офферу мечты;
🟠 Комфортный темп обучения и удобный формат, полноценная поддержка от группы преподавателей в процессе;
🟠 Карьерная поддержка: помощь с резюме, консультации, подготовка к собеседованиям.
 
А ментор потока – Георгий Семенов поможет избежать «слепых зон», поделится опытом и поддержит мотивацию до результата.

➡️ Узнать больше о курсе и забронировать скидку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍53
⚡️ Вебинар: Как аналитику перейти в инженерию данных

Рано или поздно каждый аналитик задумывается о том, что ему нужны навыки инженера данных: кто-то понимает это только изучив азы SQL, а кто-то уже с большим коммерческим опытом. 

Чтобы помочь максимально быстро выстроить свою стратегию развития, уже в следующую среду мы проведем вебинар, где Георгий Семенов, Chief Data Officer и ментор нового потока курса «‎Инженер данных»‎, поделится своим опытом и даст самый актуальный взгляд на то, как быстрее войти в профессию.

На вебинаре вы познакомитесь с ментором и разберете: 

🟠Ситуацию на рынке со стороны нанимателя: компании, грейды и зарплаты
🟠Пути становления и развития дата-инженера
🟠Необходимые скиллы для работы и прохождения собеседования
🟠20% нужных навыков, которые дадут 80% результата

❗️ Встречаемся 3 сентября в 19:00 МСК

💬 Обязательно ждем вас в лайве – вы сможете напрямую задать свои вопросы Георгию и получить консультацию крутого практика.

➡️ Регистрация на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍65👏1
Всем привет! На связи команда Simulative 👋
Сегодня рассказываем про этапы отбора в Т-Банк.

Что в этих отборах хорошо — так это то, что процесс един для каждой команды и вы всегда можете быть готовы к следующему:

1️⃣HR-скрининг. Созваниваетесь по телефону, отвечаете на базовые вопросы про опыт и пожелания к новому месту работы, договариваетесь о времени технического интервью.

2️⃣ Техническое интервью: проверяют все и сразу. Сложность вопросов начинается от самой базы и растёт по ходу интервью. Если уверенно и подробно рассказывать как и почему что-то работает, то часть вопросов могут пропустить. Но не удивляйтесь, когда на интервью для опытных сотрудников вам придется рассказывать, как суммировать строки в SQL.

3️⃣Знакомство с командами, куда вы прошли по технической части. Возможно, на встречу придет только лидер команды, куда вы договаривались прийти изначально, но бывают случаи, когда приходят коллеги из других команд и даже могут предложить условия лучше.

4️⃣Проверка службы безопасности, оффер, онбординг.

Сегодня мы подробно разобрали второй пункт часть с SQL.

Как это принято в компаниях с отлаженными процессами, вас будет собеседовать человек, который вообще про вас ничего не знает. Вернее, знает он лишь то, что он должен вас хорошо проверить, потому что именно ему сообщать HR и лидерам команд о вашей технической подготовке. Но не забывайте и про софт-скиллы :)


Собеседование проходит в три части: SQL, Python, мат.стат + теорвер. В карточках разобрали техническое интервью на SQL. Изучайте 🤓

Кстати, на продвинутых тарифах курса-симулятора «Аналитик данных» (и не только) мы проводим тестовые технические собеседования, чтобы наши студенты были готовы к успешным прохождениям 🧡
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥109👍6
Как аналитику стать инженером данных и что вообще он должен знать? 🧐

Для тех, кто задумывается о карьере в инженерии данных, напоминаем о том, что у нас есть большой роадмап дата-инженера.

В нём вы найдете пошаговый план, который поможет выстроить чёткую траекторию обучения и быстрее достичь профессиональных целей, а ещё найдёте ответы на эти вопросы:

🟠Что инженеру данных знать обязательно, а что — опционально;
🟠В каком порядке изучать темы, чтобы не запутаться;
🟠Что нужно освоить в первую очередь, чтобы войти в профессию.

А о том, как из аналитики перейти в инженерию данных, поговорим уже завтра, 3 сентября в 19:00 МСК.

Вебинар проведет Георгий Семенов — Chief Data Officer и новый ментор курса «Инженер данных». Что разберём:

😶Пути становления и развития дата-инженера;
😶Необходимые скиллы для прохождения собеседования;
😶Ситуацию на рынке со стороны нанимателя: компании, грейды и зарплаты.

Роадмап придет вам в бот в формате pdf сразу после регистрации на вебинар.
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥6👍4👏1
Всем привет! На связи Павел Беляев 👋

Сегодня мог быть анонс очередного эфира со мной, но у меня есть новости поинтереснее! В сентябре я стану ментором на новом потоке курса-симулятора «Аналитик данных».

😶Немного обо мне для тех, кто ещё со мной не знаком:
Я уже более 5 лет руковожу командой аналитиков в компании Яндекс eLama, а также веду телеграм-канал «Тимлидское об аналитике».

Команда аналитиков eLama под моим руководством выполняет следующие задачи:
— разработка и поддержка витрин данных (Clickhouse, SQL);
— автоматизация и оптимизация процессов, связанных с данными: обновление витрин, мониторинг качества данных, чистка устаревшего и т.д.;
— разработка внутренних сервисов аналитики: модель данных, self service и др.;
— настройка веб-аналитики;
— прогнозирование метрик;
— поддержка различных отделов компании требуемыми данными;
— содействие другим аналитикам в сборе, визуализации и интерпретации данных;
— консалтинг и обучение конечных пользователей.

За время работы в сфере аналитики я успел побывать в разных ролях: бизнес-аналитик, веб-аналитик, дата-инженер, дата-аналитик, BI-аналитик, тимлид. Поэтому на личном опыте понимаю, как выглядит в бизнесе вся цепочка обработки данных от потребности до выводов.

Уверен, что мой опыт поможет студентам привязать полученные знания к реальным бизнес-задачам из деловой жизни!

‼️Новый поток курса-симулятора «Аналитик данных» стартует уже в сентябре. А до 12 сентября на курс действуют ранние цены -25%.

➡️ Узнать подробнее и забронировать место на потоке
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76👍2
This media is not supported in your browser
VIEW IN TELEGRAM
8🔥2
О значимости времени и стандартов

Всем привет! На связи Георгий Семенов, Chief Data Officer и ментор нового потока курса «Инженер данных».

Давным-давно, еще в доковидные времена, нам понадобилось настроить сбор ежедневных статистик наших мобильных приложений из личного кабинета Apple Developer.

Настроили импорт через API — миссия выполнена. Но не тут-то было. Данные не сходились с другим источником, который мы использовали для учета установок и сессий приложений (Appsflyer).

Довольно быстро выяснили, что Apple отдает даты в таймзоне Pacific Time, который меньше UTC на 7 часов летом и на 8 зимой, тогда как мы всегда использовали UTC. Сейчас Apple уже умеет в UTC, но тогда это стало для нас проблемой, ведь мы не могли сверить свои финансовые и продуктовые отчеты. Хорошо, что нам было с чем сверять. Иначе ошибка могла пройти незамеченной — и такое случается.

А ведь большинство табличных данных — это time-series.

Время — это основной ключ партицирования данных в хранилище, используемый для фильтрации, группировки и даже JOIN. Поэтому очень важно, чтобы все обработанные данные хранились в едином часовом поясе.


И да — для этого недостаточно указать дефолтную timezone в настройках вашей Базы Данных.

В том или ином виде я постоянно сталкиваюсь с проблемами смещения времени и их последствиями. Если модель данных хранилища недостаточно хорошо спроектирована, то потребителю данных будет очень легко упустить различие между таймстэмпами и сравнить несравнимое: PT с UTC, дату события с датой получения события.

И дело не только во времени. Другие поля (идентификаторы, денежные суммы, категории и прочее) часто имеют в разных источниках разные названия, типы данных и форматы значений даже для одних и тех же реальных объектов. Все это серьезно осложняет задачу получения ценности из данных.

Во многом, именно поэтому считается, что 80% работы аналитика — это очистка и подготовка данных. Но качественная работа архитекторов и инженеров данных может в несколько раз упростить аналитику жизнь.

Поэтому я обобщу свою мысль — для хранилища очень важна стандартизация: таймзон, типов данных, названий, значений и много чего еще.

Структура вашего хранилища должна быть максимально понятной. Чтобы ваши коллеги даже без обращения к документации понимали где какие данные искать.


И что, например, поле business_dttm во всех time-series таблицах является первичным ключом партиции и имеет тип timestamp с таймзоной UTC, а колонка product_id во всех таблицах означает одну и ту же сущность (по крайней мере, в рамках одного бизнес-домена, но это уже отдельная история).

Так они совершат меньше ошибок и зададут вам меньше вопросов. Особенно, если среди них есть неискушенные бизнес-пользователи, а у вас self-service BI.

⁉️ Так как же мы решили этот кейс?

Поскольку date, в отличие от datetime, нельзя конвертировать в наш стандартный часовой пояс, то надо явно дать понять пользователю о нестандартной ситуации. И если мы называли поле с датой business_date, то это назвали business_date_pacific_time.

💬 А как бы сделали вы? Пишите в комментариях)
И если у вас были похожие истории — тоже обязательно поделитесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
3🔥1
Уже через пару часов встречаемся на вебинаре! Приходите, буду рад всех видеть 🧡

Обсудим:
😶Какие навыки нужны для работы в ДЕ
😶Необходимые скиллы для прохождения собеседования
😶Ситуацию на рынке со стороны нанимателя: компании, грейды и зарплаты
😶Пути развития дата инженера

➡️ Зарегистрироваться на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2
Привет! На связи Павел Беляев — автор канала Тимлидское об аналитике и ментор курса «Аналитик данных» 👋

Сегодня хочу немного пояснить, почему аналитику нужно хотя бы примерно ориентироваться во многих темах.

Ценность аналитики заключается в том, что представитель бизнеса может принимать решения на её основе.

А для этого данные следует прогнать через несколько процессов и стадий. Я называю этот путь конвейером данных.

Конвейер данных включает в себя следующие основные этапы:

1️⃣Формирование вопросов
Сначала определяется потребность в информации, подбираются метрики и методы анализа, а также составляется перечень необходимых данных.


2️⃣Сбор данных
Сырые, необработанные данные собираются из источников в аналитическое хранилище (АХ), где и производится всяческая аналитическая «магия».

В качестве АХ могут использоваться различные системы управления базами данных (СУБД), например, Clickhouse или PostgreSQL.

Запросы к СУБД выполняются на языке SQL. А процессы сбора и транспорта данных осуществляются специальными инструментами, например, Airflow, который «дирижирует» Python-скриптами.


3️⃣Преобразование данных
Сырые данные «готовятся», а блюдом являются витрины данных: таблицы, содержащие отфильтрованные строки, рассчитанные метрики, сгруппированные сегменты и прочие результаты реализации бизнес-логики.

С данными производятся операции фильтрации, объединения, расчета, приведения к нужному виду и т.д. Обычно для этого используются языки SQL или Python.


4️⃣Визуализация
Витрины служат источниками для отчетов или дашбордов, содержащих графики, чарты, диаграммы и прочую «наглядную красоту», которая помогает пользователю быстро сориентироваться в информации и сделать нужные выводы.

Визуализация делается с помощью соответствующих инструментов: Power BI, Data Lens, Looker Studio, Metabase и др.


5️⃣Анализ
Собственно, процесс изучения, осознания ситуации, а также формирования выводов, ответов на поставленные вопросы.

Рассчитанные метрики сопоставляются с некими желаемыми эталонами, изучаются тренды, обнаруживаются и обосновываются выбросы, проседания и т.д.


6️⃣Решение
На основе выводов решается —достигнуты ли цели, что делать дальше, работает ли новая фича и т.п.


Путь данных весьма насыщен приключениями и этим он интересен!

Курс «Аналитик данных» достаточно комплексно составлен и затрагивает все эти этапы, чем меня и впечатлил.

❗️И напоминаю, что до 12 сентября у вас есть возможность попасть на курс со скидкой -25%. Успевайте ей воспользоваться и желаю успехов в аналитике, коллеги!

➡️ Узнать больше о курсе и забронировать скидку
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥7👍3