Simulative – Telegram
7.37K subscribers
1.78K photos
77 videos
1 file
1.35K links
Мы — образовательная платформа в сфере аналитики Simulative: simulative.ru

Создаём курсы-симуляторы, где обучаем не на «апельсинках», а на кейсах из реального бизнеса.

Наш уютный чат: @itresume_chat
Поддержка: @simulative_support
Download Telegram
Simulative
📣 Задайте вопрос эксперту по ML и Data Science Представляем следующего нашего эксперта Q&A-сессии — Марию Жарову, ML-инженера команды рекомендаций в Wildberries! Немного об эксперте: — Выпускница МФТИ c отличием по кафедре интеллектуальных систем; — Соавтор…
Начинаем Q&A-сессию с Марией Жаровой!

Первый вопрос:

В данных всё идёт по принципу оптимального действия δA ≡ O?


Практически во всех задачах DS и ML есть идея оптимизации: непосредственно модели полностью основаны на оптимизационных алгоритмах + бывают более широкие проблемы, где также нужно найти параметры или действие, которые дают лучший результат по выбранной метрике.

Но не вся работа с данными про «оптимальное действие». Например, чтобы построить модели, сначала необходимо разобраться в данных — поискать закономерности, проверить гипотезы, понять ограничения. И зачастую это больше половины всего процесса, если не учитывать production-составляющую. Так что принцип оптимальности ключевой, но не описывает весь процесс целиком.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥542
Вопрос:
Какие мастер-данные наиболее ценны для рекомендаций?


Самыми полезными являются стабильные признаки пользователей и объектов. Со стороны пользователя — это, как правило, базовые характеристики (пол, регион, возрастная группа) и долгосрочные интересы. А со стороны объекта — категории, атрибуты, цена, текстовое описание, изображения, жанр, стиль... Тут уже многое зависит от доменной области рекомендаций.

Эти характеристики особенно важны, когда мало истории взаимодействий: для новых/малоактивных пользователей или новых/редких товаров, так как по ним можно построить так называемые контентные рекомендации.
6🔥42
Вопрос:

Как ты начала карьеру?
🔥411
This media is not supported in your browser
VIEW IN TELEGRAM
🔥422
This media is not supported in your browser
VIEW IN TELEGRAM
🔥422
Fullstack-аналитик: «универсальный солдат» данных или путь на выгорание?

Многие из наших зрителей вебинаров спрашивают, кто такой fullstack-аналитик и стоит ли в это направление двигаться. Это специалист, который закрывает весь цикл работы с данными: от сбора и инженерии до анализа, дашбордов и бизнес-рекомендаций.

Он может быть универсалом в стартапе или ключевым звеном в большой команде, отвечающим за конкретный продукт. Это определяет и огромные возможности, и высокие требования.

Давайте разложим по полочкам, что вас ждёт.

Плюсы профессии:

➡️ Сверхбыстрый рост. Работа на стыке аналитики, инженерии и BI ускоряет развитие. За год можно пройти путь, на который в узких ролях уходит 2-3 года.

➡️ Высокая ценность и зарплата. Компании платят больше (часто на 20-40%) тем, кто сам может провести данные от сырого лога до бизнес-решения, ускоряя процессы.

➡️ Реальное влияние на продукт. Вы отвечаете на вопросы: «Почему просели показатели?», «Какую гипотезу запустить?», «Какой сегмент растёт?». Результат вашей работы виден сразу.

➡️ Гибкость карьеры. Отсюда можно уйти в аналитику данных, BI, инженерию данных или на руководящие позиции. Кругозор позволяет выбирать.

➡️ Автономность. Вы не зависите от других команд — сами построите пайплайн, витрину, дашборд и проведёте анализ.

Минусы и сложности:

➡️ Высокая нагрузка. Нужно держать в голове архитектуру данных, SQL, метрики, BI-инструменты и бизнес-контекст одновременно. Это требует зрелости и организованности.

➡️ Постоянное переключение контекста. За день можно сделать задачи инженера, аналитика и BI-специалиста. Если любите развиваться глубоко в одной сфере — профессия может казаться хаосом.

➡️ Много коммуникации. Fullstack-аналитик — связующее звено между данными и продуктом. Общаться с заказчиками, менеджерами и разработчиками придётся постоянно.

➡️ Не для узких экспертов. Не подойдёт тем, кто хочет стать гуру в одной области (например, только в SQL или только в визуализации). Здесь ценят ширину.

➡️ Работа в «сырой» инфраструктуре. Особенно в небольших компаниях часто приходится самому допиливать и настраивать инструменты, чтобы вообще можно было работать.

Кому это подходит? Тем, кто хочет быстрого роста, любит разнообразие, готов брать на себя ответственность и видеть прямой результат своей работы. Главное — иметь правильную базу и системный подход, чтобы минусы превращались в интересные задачи, а не в путь к выгоранию.


Всё, что нужно для старта и уверенного роста в этой профессии, мы систематизировали в нашем курсе «Fullstack-аналитик». В нём только практика: от настройки пайплайнов и сложного SQL до анализа и построения дашбордов, которые действительно влияют на бизнес.

🧡 Хотите изучить профессию, которая делает из данных решения? Подробная программа и отзывы ждут вас по ссылке: simulative.ru/fullstack-analyst

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥21
В 37 лет устал от IT-рутины. В 38 стал аналитиком с дипломом и новой зарплатой

Знакомьтесь, Михаил Колчар — студент, который прошёл почти всю линейку наших курсов (и до сих пор проходит!) 🔥

Его путь — лучший ответ на вопрос «А получится ли у меня?». Раньше он был сисадмином в госструктуре и к 37 годам понял, что хочет удалённую работу и новую профессию.

О своём карьерном треке он рассказал в карточках.

С его позволения процитируем: прекращайте свои раздумья и идите уже учиться и менять свою жизнь к лучшему! Наши курсы ждут вас 👨‍💻


➡️ Выбрать свой курс и начать меняться: simulative.ru

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥7👍11
Всем привет! На связи команда Simulative 👋🏻

В середине февраля мы планируем провести «прожарку» ваших резюме и сопроводительных писем с опытным HR-специалистом. Поэтому ждём ваши резюме на «прожарку»!

На вебинаре наш HR Наталья Рожкова в прямом эфире разберёт 3-5 присланных резюме и покажет, что цепляет рекрутера, а что улетит в корзину.

➡️ Хотите, чтобы разобрали именно ваше резюме? Заполняйте форму: https://clck.ru/3RcseT

📆 Дедлайн подачи — 13 февраля, 23:59 МСК. Успейте отправить!

Даже если ваше резюме не выберут для разбора в прямом эфире, на вебинаре вы получите чек-лист для самостоятельного аудита и ответы на свои вопросы.

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73😁11
Для чего нужна временная таблица в SQL

Работа аналитика очень разнообразна, и часто ему приходится писать достаточно большие запросы — более 100 строк на один SELECT. Такое количество строк формируется за счёт большого количества джоинов со вложенными подзапросами.

Если такой скрипт передать другому коллеге или вернуться к нему через несколько месяцев, то разобраться в скрипте становится сложно. Чтобы упростить восприятие скрипта, аналитики используют CTE.

➡️ Читать статью: simulative.ru/blog/cte-sql

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥731
Вебинар: проектируем витрину данных с нуля за полтора часа

На вебинаре разберём реальный бизнес‑кейс и шаг за шагом спроектируем витрину данных: определим ключи и необходимые поля, обсудим, какие исходные таблицы нужны и как эта витрина дальше используется в BI и аналитике. Вы на практике увидите, чем мышление инженера данных отличается от мышления аналитика, который пишет разовые запросы.

Что вы узнаете:
🟠 Спроектируете витрину данных под реальный бизнес‑запрос: определите зерно, ключи, поля и правила расчёта метрик, чтобы витрина была готова к использованию в аналитике и BI;
🟠 Поймёте, как дата‑инженер превращает «сырые таблицы» в удобный слой для аналитиков: какие исходники нужны, где возникают типовые ошибки и как их избежать на этапе проектирования;
🟠 ​Разберётесь, какие навыки и инструменты нужны для таких задач в работе и как стать инженером данных.

❗️ Встречаемся 10 февраля в 19:00 МСК.

Спикер вебинара — Александр Дарьин, автор канала Аналитик на минималках, Data Engineer и ментор курса «Инженер данных».

💬 Всем зарегистрировавшимся дарим полезный материал — карту компетенций инженера данных!


➡️ Зарегистрироваться на вебинар

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥742
Как быстро познакомиться с датасетом, прежде чем писать код

Привет! На связи Мария Жарова, ментор курса «ML-инженер» 👋🏻

Представьте ситуацию: вам дают новый датасет и просят «быстро глянуть на данные».

Что обычно вы делаете? Начать можно с head(), info(), describe() — и за несколько строк кода что-то станет понятно. Но конечно, одного этого недостаточно, чтобы реально оценить качество данных.

А что если я скажу, что можно получить полный отчёт по датасету за пару строк кода? В этом поможет ydata-profiling — библиотека, которая за несколько минут собирает полноценную информацию о датасете и помогает увидеть проблемы ещё до того, как вы начали писать пайплайн или обучать модель.

Что именно она показывает:
Общий обзор датасета с автоматическими предупреждениями — дубликаты, сильная корреляция, константные признаки;
Подробную аналитику по каждому столбцу — распределения, выбросы, статистики;
Визуализации для числовых признаков и word cloud для категориальных;
Пропуски и их структуру;
Взаимосвязи между числовыми фичами.

По сути, это быстрый чек-лист качества данных в одном HTML.

Как сгенерировать отчёт на Python

Установите библиотеку, если ранее ей не пользовались:

pip install ydata-profiling


Минимальный код:

import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv("data.csv")

profile = ProfileReport(
df,
noscript="Первичный анализ датасета"
)


Отчёт можно посмотреть прямо в ноутбуке:

profile.to_notebook_iframe()


Или сохранить в HTML, чтобы поделиться с коллегами:
profile.to_file("data_report.html")


Это не просто красивая визуализация — на практике такой отчёт экономит часы: сразу видно, где данные «грязные», какие признаки бесполезны, а какие могут создать проблемы для модели.

Если раньше вы начинали анализ с head() — попробуйте хотя бы раз начать с profiling.

Ставьте ❤️, если было полезно — и сохраняйте, чтобы не потерять!

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
28🔥232
Media is too big
VIEW IN TELEGRAM
3 главных навыка продуктового аналитика прямо сейчас 👆🏻

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥752👍1
Проектируем витрину данных с нуля — уже через 2 часа!

Присоединяйтесь к вебинару с Александром Дарьиным, где мы шаг за шагом спроектируем витрину данных под реальный бизнес‑запрос.

Вы поймёте, как дата‑инженер превращает «сырые таблицы» в удобный слой для аналитиков, и какие навыки и инструменты нужны для таких задач в работе.

➡️ Регистрируйтесь!

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
🔥841
Почему LEFT JOIN внезапно превращается в INNER JOIN?

Привет! На связи Вячеслав Потапов, ментор курса «Аналитик данных» 👋

Сегодня решил дать вам разбор ошибок, которые можно часто допускать в начале карьеры: почему LEFT JOIN внезапно превращается в INNER JOIN?

Это важно, если вы считаете конверсии, retention, воронки и пользователей без действий (0 заказов, 0 оплат и т. д.).

Задача: есть таблицы:

🟠 users: user_id, registration_date;
🟠 orders: order_id, user_id, order_date.

Хотим посчитать количество заказов на каждого пользователя после 1 января 2025 года, включая тех, у кого 0 заказов. Как это можно сделать?

select
u.user_id,
count(o.order_id) as orders_cnt
from users u
left join orders o
on u.user_id = o.user_id
where o.order_date >= '2025-01-01'
group by u.user_id;


На вид всё логично, но пользователи без заказов пропадают. Почему так происходит?

LEFT JOIN сохраняет всех пользователей, WHERE o.order_date >= ... выполняется после JOIN. Для пользователей без заказов:
o.order_date = NULL;
Условие NULL >= '2025-01-01' даёт NULL;
А WHERE оставляет только TRUE.

В результате LEFT JOIN превращается в INNER JOIN, и часть данных исчезает. Как правильно?

Способ 1 (самый правильный) — условие переносим в JOIN:

select
u.user_id,
count(o.order_id) as orders_cnt
from users u
left join orders o
on u.user_id = o.user_id
and o.order_date >= '2025-01-01'
group by u.user_id;


Теперь пользователи без заказов останутся и count(o.order_id) даст 0.

Способ 2 (на больших данных самый надёжный) — агрегируем до JOIN:

with orders_cnt as (
select
user_id,
count(*) as cnt
from orders
where order_date >= '2025-01-01'
group by user_id
)
select
u.user_id,
coalesce(o.cnt, 0) as orders_cnt
from users u
left join orders_cnt o
on u.user_id = o.user_id;


Запомните правило: WHERE на правой таблице после LEFT JOIN — это опасно. Проверяйте логику — через фильтры для правой таблицы в ON либо через предварительную агрегацию.

Ставьте реакции, если было полезно!

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍962
Всем привет! На связи команда Simulative 🚀

Видим, что происходит вокруг, и не хотим терять связь с вами. Подписывайтесь на другие наши площадки, где мы продолжаем делиться полезным контентом:

ВКонтакте: https://vk.com/simulative
YouTube: https://www.youtube.com/@simulative
TikTok: https://www.tiktok.com/@simulative_official
Кое-где ещё (найдёте по нику simulative_official)

Будем рады вас видеть!

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
53🔥1😁1
Media is too big
VIEW IN TELEGRAM
Разобрались, какие ошибки совершают дата-сайентисты в своих резюме 👆

Какую профессию рассмотрим следующей?

📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥432