Simulative – Telegram
7.39K subscribers
1.7K photos
70 videos
1 file
1.26K links
Привет! Мы — образовательная платформа в сфере аналитики Simulative: simulative.ru

Создаём курсы-симуляторы, где обучаем не на «апельсинках», а на кейсах из реального бизнеса.

Наш уютный чат: @itresume_chat
Поддержка: @simulative_support
Download Telegram
🧑🏻‍💻 Симулятор работы аналитика: решаем задачи бизнеса с помощью SQL

На следующей неделе мы продолжаем решать задачи бизнеса с помощью SQL.

На этот раз решим один из кейсов прямиком из программы курса-симулятора «Аналитик данных», где мы будем проводить исследование клиентской активности.

Что научимся делать на вебинаре:

🟠 Считать как менялось пиковое значение по ежедневному количеству регистраций на платформе.

🟠 Считать DAU за каждый день и попробовать его сгладить двумя способами: скользящим средним и медианным сглаживанием.

🟠 А также узнаем лучшие практики решения данных задач

Спикер: Павел Беляев,
руководитель группы дата-аналитиков в компании Яндекс eLama и автор телеграм-канала «Тимлидское об аналитике».

❗️ Встречаемся 26 августа в 19:00 МСК

💬 Будет много практики, примеров и ответов на ваши вопросы.

➡️ Регистрация на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74👍4
Всем привет! На связи Александр Грудинин, ментор курса «Аналитик данных» 👋

В начале недавнего вебинара, на котором мы решали разные бизнес-кейсы с помощью SQL, я спросил у участников, кто как оценивает свой уровень владения этим языком программирования по шкале от 0 до 5.

Спустя какое-то время и пару задач, поступил один занятный комментарий в чате. Не помню дословно, но коллега отметил, что посмотрев на задачи и способы их решения, он осознал, что переоценил свои навыки SQL🙂

Вспоминая это, я вернулся во времена, когда работал в крупном банке и столкнулся с одним монструозным процессом, под капотом которого было 4 SQL скрипта — каждый длинной в 1000-1500 строк.

Скрипты бегали по разным источникам, собирали данные по клиентам, агрегировали, считали, фильтровали и т.д. и т.п. И во всем этом зоопарке надо было разобраться: научиться вносить изменения так, чтобы на проде ничего не легло и отслеживать какие изменения за собой повлекут изменения двух-трех строк кода или одного порогового значения.

Я тогда тоже подумал, что, пожалуй, до этого SQL я и не знал.
Но, как говорится, «глаза боятся — руки делают». Со временем, работа с этим «монстром» превратилась в рутинную задачу 🙂

И выработался ряд советов / полезных практик для работы с большими скриптами:

1️⃣Уменьшайте размер данных на этапе построения / отладки скрипт
Не нужно писать скрипт используя сразу миллионы строк которые есть в БД. Начните с данных за один час, данных только одного клиента и т.п. В общем, сделайте так, чтобы скрипт выполнялся быстро и вы могли максимально оперативно вносить в него изменения на этапе разработки.


2️⃣Используйте временные / промежуточные таблицы
В каждой СУБД свой синтаксис для этого, так что придется погуглить, как это делается конкретно у вас :)
Если у вас большой и составной скрипт, а вам надо поработать над изменениями в определенной его части, например, в середине, то сохраните результаты первой части запроса во временную / промежуточную таблицу и уже обращайтесь при отладке к ней. Таким образом, вы сэкономите много времени.


3️⃣Сохраните результаты работы оригинального скрипта.
Перед внесением правок, сохраните эталонный результат, чтобы было потом с чем сравнивать «а что же изменилось».


4️⃣Спросите совета у коллег :)
Как-то же они до вас дорабатывали и поддерживали этот скрипт / процесс. Наверняка найдется пара лайфхаков, которые помогут вам в работе. Не бойтесь показаться некомпетентным — все знать невозможно, тем более невозможно сразу разобраться в особенностях каждого конкретного решения. Коллеги отнесутся с пониманием, а если это здоровый коллектив, то такие вопросы будут даже приветствоваться.


В процессе работы с длинными скриптами, мой скилл в SQL определенно прокачался. Поэтому не стоит бояться трудных задач — они делают вас только лучше как профессионала.

Ну и еще не совет, а скорее, добрая рекомендация — приходите к нам на поток курса «Аналитик данных». Он уже стартовал, но вы ещё успеваете присоединиться. Будем прокачивать скиллы вместе.
Please open Telegram to view this post
VIEW IN TELEGRAM
23
Привет, на связи команда Simulative! 👋

У нас отличная новость — мы добавили в обучение функцию, которую многие давно ждали!
Теперь, решив задачу правильно, вы сможете увидеть, как с ней справились другие пользователи.

Учитесь на чужих подходах и находите самые элегантные решения. Кнопка «Решения пользователей» уже появилась в меню у автозадач.

❗️Кстати, хотите увидеть, как решают задачки не только студенты, но и гуру аналитики?

Приходите завтра на бесплатный вебинар, где Павел Беляев — руководитель группы дата-аналитиков в компании Яндекс eLama ​​покажет, как решать бизнес-задачи с помощью SQL.

Что будем делать на вебинаре:
🟠Считать, как менялось пиковое значение по ежедневному количеству регистраций на платформе.
🟠Считать DAU за каждый день и попробовать его сгладить двумя способами: скользящим средним и медианным сглаживанием.
🟠А также узнаем лучшие практики решения данных задач

➡️ Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥97👍6😁1
Привет! На связи Павел, руководитель группы дата-аналитиков в компании Яндекс eLama 👋

Сегодня на вебинаре разберем две практические задачи, которые помогут вам лучше понять поведение пользователей на вашем продукте. Речь пойдет о ежедневной аудитории и регистрациях.

1️⃣ DAU (Daily Active Users) — ключевая метрика, но она часто бывает «зубастой». Выходные, праздники, запуск рекламы — всё это создает шумы и всплески, которые мешают увидеть настоящий тренд.

Решение: применим два популярных метода сглаживания.

Скользящее среднее (Moving Average)

Это среднее значение метрики за предыдущие N дней (например, за 7 дней). Оно отлично скрывает weekly-seasonality (всплески на выходных) и показывает общий тренд.

Медианное сглаживание (Median Smoothing)

Медиана более устойчива к выбросам (аномальным всплескам или провалам). Если в ваших данных внезапно был «пик» из-за одноразового события, скользящая медиана не даст ему сильно исказить общую картину.

2️⃣ Анализ пиковых регистраций. Как менялись рекорды?

Просто смотреть на общее число регистраций в день — мало. Интереснее ответить на вопрос: «Как наша платформа росла в моменте своего максимального успеха?».

Для этого мы можем посчитать самое высокое пиковое значение регистраций нарастающим итогом.

Суть: для каждого дня мы находим максимальное количество регистраций, которое было достигнуто за всю историю до этого дня.

Этот простой метод наглядно показывает, в какие именно моменты ваш продукт бил свои же рекорды по привлечению новых пользователей. Отличный способ визуализировать ключевые точки роста!

Сегодня на вебинаре мы научимся:

— Считать DAU за каждый день и попробовать его сгладить двумя способами: скользящим средним и медианным сглаживанием.

— Считать, как менялось пиковое значение по ежедневному количеству регистраций на платформе.

➡️ Регистрация на вебинар
🔥74👍3
This media is not supported in your browser
VIEW IN TELEGRAM
👍83
🔥 Прямо сейчас в эфире разбираем реальные бизнес-задачи с помощью SQL

Вступительная часть вебинара уже прошла —начинается самое интересное! Спикер: Павел Беляев — руководитель группы дата-аналитиков в компании Яндекс eLama ​​покажет, как решать бизнес-задачи с помощью SQL.

➡️ Смотреть трансляцию
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62
⚡️ Для тех, кто хотел углубиться в инженерию данных, мы подготовили кое-что интересное!

Встречайте: Георгий Семенов, Chief Data Officer, ментор нового потока курса «Инженер данных».

🟠 Более 14 лет Георгий управляет IT-проектами и продуктами, командами инженеров и аналитиков. Последние 7 лет внедрял и развивал аналитические решения и платформы на сеньорных и руководящих позициях в компаниях VK, Wildberries, СТС, ЦУМ, ВТБ. В настоящее время партнер и CDO в стартапе Ai-Minds.

🟠 Георгий имеет богатый опыт в области Data Governance, Data Architecture, Data Engineering, Business Intelligence. Работал с различными технологиями и архитектурами данных, инфраструктурами от одного до сотен серверов, десятков петабайт данных и десятков тысяч датасетов. Вывел в прод сотни пайплайнов и десятки дата-продуктов, включая ML-сервисы.

🟠 Кроме того, Георгий преподает анализ данных в НИУ ВШЭ, а также провел более 150 индивидуальных консультаций, поэтому в его менторской экспертизе можно не сомневаться!

🧡 Кстати, до 30 августа на поток с Георгием можно записаться по самым ранним ценам: со скидкой 25%.

➡️ Узнать подробности и оставить заявку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥98👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥86👏3
Всем привет! На связи Георгий Семенов, Chief Data Officer и ментор нового потока курса «‎Инженер данных»👋🏻

Мой путь в инжиниринг данных шёл через аналитику, но не совсем типично.
9 лет назад я работал менеджером продукта в небольшом ламповом финтех-стартапе, где мне приходилось выполнять совершенно разные функции, включая продуктовую аналитику, поскольку отдельного специалиста в команде не было. Я неплохо орудовал SQL и Excel. Но в какой-то момент понял, что на аналитику уходит половина моего времени.

Тогда у меня возникло две мысли:

🟠 Автоматизировать рутинные расчеты, чтобы тратить на них меньше времени.
🟠 Поднять BI-инструмент, чтобы коллеги могли сами быстро посчитать что-то простое.

Так я и сделал. Написал скрипты, которые делали регулярные расчеты, и поставил их на расписание. Для этого мне пришлось изучить Python, Docker, Airflow и другие новые для себя штуки.
Посмотрел бесплатные BI-инструменты — остановился на Superset, развернул его, настроил основные дашборды, и обучил коллег (особенно неайтишных) им пользоваться.

Тогда я нашел себя, и понял, что хочу не только создавать продукты, основываясь на данных, но создавать продукты, основанные на данных, где данные — один из ключевых элементов самого продукта.

А для этого нужно уметь бесперебойно собирать, хранить и обрабатывать данные, предоставлять удобный доступ к ним и обеспечивать высокое качество не только самих данных, но также всех связанных процессов и инструментов.

Я начал развиваться в эту сторону в компаниях, где эти задачи были актуальны. Я переходил на все более сложные дата-платформы, где данных становилось все больше, а источники все изощреннее, изучал новые архитектуры и инструменты.

🧡 Вот как инжиниринг данных превратился для меня из вспомогательного процесса в основную деятельность. И это то, что мне по-прежнему нравится. DE это c виду простая функция, но на самом деле технически интересная и живая область, где постоянно появляются новые инструменты, новые подходы и новые вызовы. И особенно важным это становится в эпоху бурного развития AI, который невозможен без качественного DE.

⚡️ Кстати, небольшой спойлер: уже на следующей неделе в прямом эфире мы поговорим о том, как аналитику перейти в инженерию данных.

А забронировать место на курсе «‎Инженер данных»‎ можно уже сейчас.

Следите за новостями!
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥5👍4👏2
Друзья, привет! На связи команда Simulative 👋

Просто напоминаем вам о том, что скидка до 25% на курс-симулятор «Инженер данных» сгорает уже завтра, 30 августа.

Что вас ждёт на курсе?

🟠 Практика только на реальных бизнес-кейсах и весь необходимый стек: PostgreSQL, Python, Metabase, Clickhouse, Hadoop, Spark / pySpark, Docker и др.;
🟠 Полноценное портфолио из пет-проектов: вы не просто учитесь, а создаёте проекты, которые добавят конкурентного преимущества при поиске работы и сделают вас на шаг ближе к офферу мечты;
🟠 Комфортный темп обучения и удобный формат, полноценная поддержка от группы преподавателей в процессе;
🟠 Карьерная поддержка: помощь с резюме, консультации, подготовка к собеседованиям.
 
А ментор потока – Георгий Семенов поможет избежать «слепых зон», поделится опытом и поддержит мотивацию до результата.

➡️ Узнать больше о курсе и забронировать скидку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍53
⚡️ Вебинар: Как аналитику перейти в инженерию данных

Рано или поздно каждый аналитик задумывается о том, что ему нужны навыки инженера данных: кто-то понимает это только изучив азы SQL, а кто-то уже с большим коммерческим опытом. 

Чтобы помочь максимально быстро выстроить свою стратегию развития, уже в следующую среду мы проведем вебинар, где Георгий Семенов, Chief Data Officer и ментор нового потока курса «‎Инженер данных»‎, поделится своим опытом и даст самый актуальный взгляд на то, как быстрее войти в профессию.

На вебинаре вы познакомитесь с ментором и разберете: 

🟠Ситуацию на рынке со стороны нанимателя: компании, грейды и зарплаты
🟠Пути становления и развития дата-инженера
🟠Необходимые скиллы для работы и прохождения собеседования
🟠20% нужных навыков, которые дадут 80% результата

❗️ Встречаемся 3 сентября в 19:00 МСК

💬 Обязательно ждем вас в лайве – вы сможете напрямую задать свои вопросы Георгию и получить консультацию крутого практика.

➡️ Регистрация на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍65👏1
Всем привет! На связи команда Simulative 👋
Сегодня рассказываем про этапы отбора в Т-Банк.

Что в этих отборах хорошо — так это то, что процесс един для каждой команды и вы всегда можете быть готовы к следующему:

1️⃣HR-скрининг. Созваниваетесь по телефону, отвечаете на базовые вопросы про опыт и пожелания к новому месту работы, договариваетесь о времени технического интервью.

2️⃣ Техническое интервью: проверяют все и сразу. Сложность вопросов начинается от самой базы и растёт по ходу интервью. Если уверенно и подробно рассказывать как и почему что-то работает, то часть вопросов могут пропустить. Но не удивляйтесь, когда на интервью для опытных сотрудников вам придется рассказывать, как суммировать строки в SQL.

3️⃣Знакомство с командами, куда вы прошли по технической части. Возможно, на встречу придет только лидер команды, куда вы договаривались прийти изначально, но бывают случаи, когда приходят коллеги из других команд и даже могут предложить условия лучше.

4️⃣Проверка службы безопасности, оффер, онбординг.

Сегодня мы подробно разобрали второй пункт часть с SQL.

Как это принято в компаниях с отлаженными процессами, вас будет собеседовать человек, который вообще про вас ничего не знает. Вернее, знает он лишь то, что он должен вас хорошо проверить, потому что именно ему сообщать HR и лидерам команд о вашей технической подготовке. Но не забывайте и про софт-скиллы :)


Собеседование проходит в три части: SQL, Python, мат.стат + теорвер. В карточках разобрали техническое интервью на SQL. Изучайте 🤓

Кстати, на продвинутых тарифах курса-симулятора «Аналитик данных» (и не только) мы проводим тестовые технические собеседования, чтобы наши студенты были готовы к успешным прохождениям 🧡
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥109👍6
Как аналитику стать инженером данных и что вообще он должен знать? 🧐

Для тех, кто задумывается о карьере в инженерии данных, напоминаем о том, что у нас есть большой роадмап дата-инженера.

В нём вы найдете пошаговый план, который поможет выстроить чёткую траекторию обучения и быстрее достичь профессиональных целей, а ещё найдёте ответы на эти вопросы:

🟠Что инженеру данных знать обязательно, а что — опционально;
🟠В каком порядке изучать темы, чтобы не запутаться;
🟠Что нужно освоить в первую очередь, чтобы войти в профессию.

А о том, как из аналитики перейти в инженерию данных, поговорим уже завтра, 3 сентября в 19:00 МСК.

Вебинар проведет Георгий Семенов — Chief Data Officer и новый ментор курса «Инженер данных». Что разберём:

😶Пути становления и развития дата-инженера;
😶Необходимые скиллы для прохождения собеседования;
😶Ситуацию на рынке со стороны нанимателя: компании, грейды и зарплаты.

Роадмап придет вам в бот в формате pdf сразу после регистрации на вебинар.
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥6👍4👏1
Всем привет! На связи Павел Беляев 👋

Сегодня мог быть анонс очередного эфира со мной, но у меня есть новости поинтереснее! В сентябре я стану ментором на новом потоке курса-симулятора «Аналитик данных».

😶Немного обо мне для тех, кто ещё со мной не знаком:
Я уже более 5 лет руковожу командой аналитиков в компании Яндекс eLama, а также веду телеграм-канал «Тимлидское об аналитике».

Команда аналитиков eLama под моим руководством выполняет следующие задачи:
— разработка и поддержка витрин данных (Clickhouse, SQL);
— автоматизация и оптимизация процессов, связанных с данными: обновление витрин, мониторинг качества данных, чистка устаревшего и т.д.;
— разработка внутренних сервисов аналитики: модель данных, self service и др.;
— настройка веб-аналитики;
— прогнозирование метрик;
— поддержка различных отделов компании требуемыми данными;
— содействие другим аналитикам в сборе, визуализации и интерпретации данных;
— консалтинг и обучение конечных пользователей.

За время работы в сфере аналитики я успел побывать в разных ролях: бизнес-аналитик, веб-аналитик, дата-инженер, дата-аналитик, BI-аналитик, тимлид. Поэтому на личном опыте понимаю, как выглядит в бизнесе вся цепочка обработки данных от потребности до выводов.

Уверен, что мой опыт поможет студентам привязать полученные знания к реальным бизнес-задачам из деловой жизни!

‼️Новый поток курса-симулятора «Аналитик данных» стартует уже в сентябре. А до 12 сентября на курс действуют ранние цены -25%.

➡️ Узнать подробнее и забронировать место на потоке
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76👍2
This media is not supported in your browser
VIEW IN TELEGRAM
8🔥2
О значимости времени и стандартов

Всем привет! На связи Георгий Семенов, Chief Data Officer и ментор нового потока курса «Инженер данных».

Давным-давно, еще в доковидные времена, нам понадобилось настроить сбор ежедневных статистик наших мобильных приложений из личного кабинета Apple Developer.

Настроили импорт через API — миссия выполнена. Но не тут-то было. Данные не сходились с другим источником, который мы использовали для учета установок и сессий приложений (Appsflyer).

Довольно быстро выяснили, что Apple отдает даты в таймзоне Pacific Time, который меньше UTC на 7 часов летом и на 8 зимой, тогда как мы всегда использовали UTC. Сейчас Apple уже умеет в UTC, но тогда это стало для нас проблемой, ведь мы не могли сверить свои финансовые и продуктовые отчеты. Хорошо, что нам было с чем сверять. Иначе ошибка могла пройти незамеченной — и такое случается.

А ведь большинство табличных данных — это time-series.

Время — это основной ключ партицирования данных в хранилище, используемый для фильтрации, группировки и даже JOIN. Поэтому очень важно, чтобы все обработанные данные хранились в едином часовом поясе.


И да — для этого недостаточно указать дефолтную timezone в настройках вашей Базы Данных.

В том или ином виде я постоянно сталкиваюсь с проблемами смещения времени и их последствиями. Если модель данных хранилища недостаточно хорошо спроектирована, то потребителю данных будет очень легко упустить различие между таймстэмпами и сравнить несравнимое: PT с UTC, дату события с датой получения события.

И дело не только во времени. Другие поля (идентификаторы, денежные суммы, категории и прочее) часто имеют в разных источниках разные названия, типы данных и форматы значений даже для одних и тех же реальных объектов. Все это серьезно осложняет задачу получения ценности из данных.

Во многом, именно поэтому считается, что 80% работы аналитика — это очистка и подготовка данных. Но качественная работа архитекторов и инженеров данных может в несколько раз упростить аналитику жизнь.

Поэтому я обобщу свою мысль — для хранилища очень важна стандартизация: таймзон, типов данных, названий, значений и много чего еще.

Структура вашего хранилища должна быть максимально понятной. Чтобы ваши коллеги даже без обращения к документации понимали где какие данные искать.


И что, например, поле business_dttm во всех time-series таблицах является первичным ключом партиции и имеет тип timestamp с таймзоной UTC, а колонка product_id во всех таблицах означает одну и ту же сущность (по крайней мере, в рамках одного бизнес-домена, но это уже отдельная история).

Так они совершат меньше ошибок и зададут вам меньше вопросов. Особенно, если среди них есть неискушенные бизнес-пользователи, а у вас self-service BI.

⁉️ Так как же мы решили этот кейс?

Поскольку date, в отличие от datetime, нельзя конвертировать в наш стандартный часовой пояс, то надо явно дать понять пользователю о нестандартной ситуации. И если мы называли поле с датой business_date, то это назвали business_date_pacific_time.

💬 А как бы сделали вы? Пишите в комментариях)
И если у вас были похожие истории — тоже обязательно поделитесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥4