NEW BOT Телеграм, страница

Simulative

📣 Задайте вопрос эксперту по ML и Data Science Представляем следующего нашего эксперта Q&A-сессии — Марию Жарову, ML-инженера команды рекомендаций в Wildberries! Немного об эксперте: — Выпускница МФТИ c отличием по кафедре интеллектуальных систем; — Соавтор…

❓

Начинаем Q&A-сессию с Марией Жаровой!

Первый вопрос:

В данных всё идёт по принципу оптимального действия δA ≡ O?

Практически во всех задачах DS и ML есть идея оптимизации: непосредственно модели полностью основаны на оптимизационных алгоритмах + бывают более широкие проблемы, где также нужно найти параметры или действие, которые дают лучший результат по выбранной метрике.

Но не вся работа с данными про «оптимальное действие». Например, чтобы построить модели, сначала необходимо разобраться в данных — поискать закономерности, проверить гипотезы, понять ограничения. И зачастую это больше половины всего процесса, если не учитывать production-составляющую. Так что принцип оптимальности ключевой, но не описывает весь процесс целиком.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤42

919 views07:05

Simulative

Вопрос:

Какие мастер-данные наиболее ценны для рекомендаций?

Самыми полезными являются стабильные признаки пользователей и объектов. Со стороны пользователя — это, как правило, базовые характеристики (пол, регион, возрастная группа) и долгосрочные интересы. А со стороны объекта — категории, атрибуты, цена, текстовое описание, изображения, жанр, стиль... Тут уже многое зависит от доменной области рекомендаций.

Эти характеристики особенно важны, когда мало истории взаимодействий: для новых/малоактивных пользователей или новых/редких товаров, так как по ним можно построить так называемые контентные рекомендации.

❤6🔥42

996 views09:05

Simulative

Вопрос:

Как ты начала карьеру?

🔥4❤11

946 views11:02

Simulative

This media is not supported in your browser

VIEW IN TELEGRAM

0:42

967 views11:02

🔥4❤22

Simulative

This media is not supported in your browser

VIEW IN TELEGRAM

0:26

885 views11:02

🔥4❤22

Simulative

Fullstack-аналитик: «универсальный солдат» данных или путь на выгорание?

Многие из наших зрителей вебинаров спрашивают, кто такой fullstack-аналитик и стоит ли в это направление двигаться. Это специалист, который закрывает весь цикл работы с данными: от сбора и инженерии до анализа, дашбордов и бизнес-рекомендаций.

Он может быть универсалом в стартапе или ключевым звеном в большой команде, отвечающим за конкретный продукт. Это определяет и огромные возможности, и высокие требования.

Давайте разложим по полочкам, что вас ждёт.

Плюсы профессии:

➡️

Сверхбыстрый рост. Работа на стыке аналитики, инженерии и BI ускоряет развитие. За год можно пройти путь, на который в узких ролях уходит 2-3 года.

➡️

Высокая ценность и зарплата. Компании платят больше (часто на 20-40%) тем, кто сам может провести данные от сырого лога до бизнес-решения, ускоряя процессы.

➡️

Реальное влияние на продукт. Вы отвечаете на вопросы: «Почему просели показатели?», «Какую гипотезу запустить?», «Какой сегмент растёт?». Результат вашей работы виден сразу.

➡️

Гибкость карьеры. Отсюда можно уйти в аналитику данных, BI, инженерию данных или на руководящие позиции. Кругозор позволяет выбирать.

➡️

Автономность. Вы не зависите от других команд — сами построите пайплайн, витрину, дашборд и проведёте анализ.

Минусы и сложности:

➡️

Высокая нагрузка. Нужно держать в голове архитектуру данных, SQL, метрики, BI-инструменты и бизнес-контекст одновременно. Это требует зрелости и организованности.

➡️

Постоянное переключение контекста. За день можно сделать задачи инженера, аналитика и BI-специалиста. Если любите развиваться глубоко в одной сфере — профессия может казаться хаосом.

➡️

Много коммуникации. Fullstack-аналитик — связующее звено между данными и продуктом. Общаться с заказчиками, менеджерами и разработчиками придётся постоянно.

➡️

Не для узких экспертов. Не подойдёт тем, кто хочет стать гуру в одной области (например, только в SQL или только в визуализации). Здесь ценят ширину.

➡️

Работа в «сырой» инфраструктуре. Особенно в небольших компаниях часто приходится самому допиливать и настраивать инструменты, чтобы вообще можно было работать.

Кому это подходит? Тем, кто хочет быстрого роста, любит разнообразие, готов брать на себя ответственность и видеть прямой результат своей работы. Главное — иметь правильную базу и системный подход, чтобы минусы превращались в интересные задачи, а не в путь к выгоранию.

Всё, что нужно для старта и уверенного роста в этой профессии, мы систематизировали в нашем курсе «Fullstack-аналитик». В нём только практика: от настройки пайплайнов и сложного SQL до анализа и построения дашбордов, которые действительно влияют на бизнес.

🧡 Хотите изучить профессию, которая делает из данных решения? Подробная программа и отзывы ждут вас по ссылке: simulative.ru/fullstack-analyst

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥21

966 views12:05

Simulative

В 37 лет устал от IT-рутины. В 38 стал аналитиком с дипломом и новой зарплатой

Знакомьтесь, Михаил Колчар — студент, который прошёл почти всю линейку наших курсов (и до сих пор проходит!) 🔥

Его путь — лучший ответ на вопрос «А получится ли у меня?». Раньше он был сисадмином в госструктуре и к 37 годам понял, что хочет удалённую работу и новую профессию.

О своём карьерном треке он рассказал в карточках.

С его позволения процитируем: прекращайте свои раздумья и идите уже учиться и менять свою жизнь к лучшему! Наши курсы ждут вас 👨‍💻

➡️

Выбрать свой курс и начать меняться: simulative.ru

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14🔥7👍11

1.19K views07:05

Simulative

Всем привет! На связи команда Simulative 👋🏻

В середине февраля мы планируем провести «прожарку» ваших резюме и сопроводительных писем с опытным HR-специалистом. Поэтому ждём ваши резюме на «прожарку»!

На вебинаре наш HR Наталья Рожкова в прямом эфире разберёт 3-5 присланных резюме и покажет, что цепляет рекрутера, а что улетит в корзину.

➡️

Хотите, чтобы разобрали именно ваше резюме? Заполняйте форму: https://clck.ru/3RcseT

📆

Дедлайн подачи — 13 февраля, 23:59 МСК. Успейте отправить!

Даже если ваше резюме не выберут для разбора в прямом эфире, на вебинаре вы получите чек-лист для самостоятельного аудита и ответы на свои вопросы.

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤3😁11

1.1K viewsedited 10:05

Simulative

Для чего нужна временная таблица в SQL

Работа аналитика очень разнообразна, и часто ему приходится писать достаточно большие запросы — более 100 строк на один SELECT. Такое количество строк формируется за счёт большого количества джоинов со вложенными подзапросами.

Если такой скрипт передать другому коллеге или вернуться к нему через несколько месяцев, то разобраться в скрипте становится сложно. Чтобы упростить восприятие скрипта, аналитики используют CTE.

➡️

Читать статью: simulative.ru/blog/cte-sql

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤31

1.07K views10:05

Simulative

Вебинар: проектируем витрину данных с нуля за полтора часа

На вебинаре разберём реальный бизнес‑кейс и шаг за шагом спроектируем витрину данных: определим ключи и необходимые поля, обсудим, какие исходные таблицы нужны и как эта витрина дальше используется в BI и аналитике. Вы на практике увидите, чем мышление инженера данных отличается от мышления аналитика, который пишет разовые запросы.

Что вы узнаете:
🟠 Спроектируете витрину данных под реальный бизнес‑запрос: определите зерно, ключи, поля и правила расчёта метрик, чтобы витрина была готова к использованию в аналитике и BI;
🟠 Поймёте, как дата‑инженер превращает «сырые таблицы» в удобный слой для аналитиков: какие исходники нужны, где возникают типовые ошибки и как их избежать на этапе проектирования;
🟠 Разберётесь, какие навыки и инструменты нужны для таких задач в работе и как стать инженером данных.

❗️ Встречаемся 10 февраля в 19:00 МСК.

Спикер вебинара — Александр Дарьин, автор канала Аналитик на минималках, Data Engineer и ментор курса «Инженер данных».

💬 Всем зарегистрировавшимся дарим полезный материал — карту компетенций инженера данных!

➡️

Зарегистрироваться на вебинар

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤42

947 viewsedited 05:16

Simulative

Как быстро познакомиться с датасетом, прежде чем писать код

Привет! На связи Мария Жарова, ментор курса «ML-инженер» 👋🏻

Представьте ситуацию: вам дают новый датасет и просят «быстро глянуть на данные».

Что обычно вы делаете? Начать можно с head(), info(), describe() — и за несколько строк кода что-то станет понятно. Но конечно, одного этого недостаточно, чтобы реально оценить качество данных.

А что если я скажу, что можно получить полный отчёт по датасету за пару строк кода? В этом поможет ydata-profiling — библиотека, которая за несколько минут собирает полноценную информацию о датасете и помогает увидеть проблемы ещё до того, как вы начали писать пайплайн или обучать модель.

Что именно она показывает:
➖ Общий обзор датасета с автоматическими предупреждениями — дубликаты, сильная корреляция, константные признаки;
➖ Подробную аналитику по каждому столбцу — распределения, выбросы, статистики;
➖ Визуализации для числовых признаков и word cloud для категориальных;
➖ Пропуски и их структуру;
➖ Взаимосвязи между числовыми фичами.

По сути, это быстрый чек-лист качества данных в одном HTML.

❓

Как сгенерировать отчёт на Python

Установите библиотеку, если ранее ей не пользовались:

pip install ydata-profiling

Минимальный код:

import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv("data.csv")

profile = ProfileReport(
    df,
    noscript="Первичный анализ датасета"
)

Отчёт можно посмотреть прямо в ноутбуке:

profile.to_notebook_iframe()

Или сохранить в HTML, чтобы поделиться с коллегами:

profile.to_file("data_report.html")

Это не просто красивая визуализация — на практике такой отчёт экономит часы: сразу видно, где данные «грязные», какие признаки бесполезны, а какие могут создать проблемы для модели.

Если раньше вы начинали анализ с head() — попробуйте хотя бы раз начать с profiling.

Ставьте ❤️, если было полезно — и сохраняйте, чтобы не потерять!

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤28🔥232

1.06K views10:05

3 главных навыка продуктового аналитика прямо сейчас 👆🏻

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤52👍1

1.02K views07:05

Simulative

Проектируем витрину данных с нуля — уже через 2 часа!

Присоединяйтесь к вебинару с Александром Дарьиным, где мы шаг за шагом спроектируем витрину данных под реальный бизнес‑запрос.

Вы поймёте, как дата‑инженер превращает «сырые таблицы» в удобный слой для аналитиков, и какие навыки и инструменты нужны для таких задач в работе.

➡️

Регистрируйтесь!

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

5🔥3❤2

1.03K views14:01

Simulative

This media is not supported in your browser

VIEW IN TELEGRAM

0:42

1.13K views15:24

🔥8❤41

Simulative

Почему LEFT JOIN внезапно превращается в INNER JOIN?

Привет! На связи Вячеслав Потапов, ментор курса «Аналитик данных» 👋

Сегодня решил дать вам разбор ошибок, которые можно часто допускать в начале карьеры: почему LEFT JOIN внезапно превращается в INNER JOIN?

Это важно, если вы считаете конверсии, retention, воронки и пользователей без действий (0 заказов, 0 оплат и т. д.).

Задача: есть таблицы:

🟠

users: user_id, registration_date;

🟠

orders: order_id, user_id, order_date.

Хотим посчитать количество заказов на каждого пользователя после 1 января 2025 года, включая тех, у кого 0 заказов. Как это можно сделать?

select
  u.user_id,
  count(o.order_id) as orders_cnt
from users u
left join orders o
  on u.user_id = o.user_id
where o.order_date >= '2025-01-01'
group by u.user_id;

На вид всё логично, но пользователи без заказов пропадают. Почему так происходит?

LEFT JOIN сохраняет всех пользователей, WHERE o.order_date >= ... выполняется после JOIN. Для пользователей без заказов:

➖

o.order_date = NULL;
➖ Условие NULL >= '2025-01-01' даёт NULL;
➖ А WHERE оставляет только TRUE.

В результате LEFT JOIN превращается в INNER JOIN, и часть данных исчезает. Как правильно?

Способ 1 (самый правильный) — условие переносим в JOIN:

select
  u.user_id,
  count(o.order_id) as orders_cnt
from users u
left join orders o
  on u.user_id = o.user_id
 and o.order_date >= '2025-01-01'
group by u.user_id;

Теперь пользователи без заказов останутся и count(o.order_id) даст 0.

Способ 2 (на больших данных самый надёжный) — агрегируем до JOIN:

with orders_cnt as (
  select
    user_id,
    count(*) as cnt
  from orders
  where order_date >= '2025-01-01'
  group by user_id
)
select
  u.user_id,
  coalesce(o.cnt, 0) as orders_cnt
from users u
left join orders_cnt o
  on u.user_id = o.user_id;

Запомните правило: WHERE на правой таблице после LEFT JOIN — это опасно. Проверяйте логику — через фильтры для правой таблицы в ON либо через предварительную агрегацию.

Ставьте реакции, если было полезно!

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥42👍9❤62

930 views07:05

Simulative

Всем привет! На связи команда Simulative

🚀

Видим, что происходит вокруг, и не хотим терять связь с вами. Подписывайтесь на другие наши площадки, где мы продолжаем делиться полезным контентом:

➖

ВКонтакте: https://vk.com/simulative