NEW BOT Телеграм, страница - 234425435

Simulative

@simulative_official

7.38K subscribers

1.71K photos

71 videos

1 file

1.27K links

Привет! Мы — образовательная платформа в сфере аналитики Simulative: simulative.ru

Создаём курсы-симуляторы, где обучаем не на «апельсинках», а на кейсах из реального бизнеса.

Наш уютный чат: @itresume_chat
Поддержка: @simulative_support

Download Telegram

About

Blog

Apps

Platform

7.38K subscribers

Узнайте, почему ваши SQL-запросы тормозят

🤖

Медленные SQL-запросы могут стоить бизнесу миллионов: отчёты считаются часами, решения принимаются с задержкой, а ошибки в данных подрывают доверие к аналитике.

На вебинаре Владимир Лунев, бизнес- и системный аналитик с 5-летним опытом работы в ритейле и IT, разберёт 7 реальных кейсов оптимизации SQL-запросов, которые помогали бизнесу принимать быстрые и точные решения.

В ходе вебинара разберём:
🟠 Как понять, что запрос тормозит, и чем это грозит бизнесу;
🟠 Как читать план выполнения (EXPLAIN, EXPLAIN ANALYZE) и находить ошибки;
🟠 Типовые причины медленных запросов и как их исправлять;
🟠 7 реальных кейсов из практики: «было → стало» с разбором кода.

❗️

Встречаемся 24 сентября в 19:00 МСК.

🧡 Обязательно ждём вас в лайве — вы сможете напрямую задать свои вопросы Владимиру Луневу и получить ценный опыт оптимизации SQL-запросов!

➡️

Зарегистрироваться на вебинар

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤65

2.83K views09:05

Привет, аналитики! Мы регулярно собираем обратную связь со студентов и выпускников наших курсов — пришло время подписчиков!

Пожалуйста, ответьте на четыре вопроса ниже, а мы в ответ сделаем наш контент лучше и интереснее 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

5❤4🔥4

1.49K views09:05

1. Кто вы?

Anonymous Poll

Студент вуза

Линейный сотрудник

Руководитель/тимлид

Не работаю

263 voters1.42K views09:05

2. В какой профессии в аналитике вы работаете/учитесь?

Anonymous Poll

Аналитик данных

Дата-сайентист

BI-аналитик

Продуктовый аналитик

Системный аналитик

Бизнес-аналитик

Инженер данных

ML-инженер

Другой профиль в аналитике, напишу в комментариях

Я не из сферы аналитики

268 voters1.34K views09:07

3. Сколько лет вы в IT?

Anonymous Poll

Более 10 лет

Пока не в IT, ещё учусь

Пока не в IT, ищу работу

Я не из сферы IT

290 voters1.36K views09:10

4. Какой контент вам интересен?

Anonymous Poll

Решение кейсов и задач из работы аналитика

Истории студентов и выпускников курсов

Полезности и лайфхаки от экспертов и менторов

Посты о команде Simulative — кто стоит за разработкой курсов

HR-контент — например, как составить резюме, подготовиться к собеседованию и т. д.

Меня интересуют только мемы, чтобы делиться с коллегами 😄

Свой вариант (в комментариях)

236 voters1.4K views09:13

Must-have инструменты для аналитика в Python

Привет, любители аналитики! С вами Павел Беляев, ментор курса «Дата-аналитик» и ведущий канала «Тимлидское об аналитике».

SQL это база, но сегодня хочу рассказать кое-что о Python — поразительно мощном инструменте аналитика. А именно — о базовых библиотеках Python, которые должен знать каждый специалист по данным.

1️⃣

Pandas — король обработки данных

Позволяет работать с таблицами как с обычными переменными, а называются они датафреймами. Всё что можно делать с таблицами в SQL, доступно и в Python:

➖ Чтение и запись данных в разных форматах;
➖ Фильтрация, сортировка, группировка;
➖ Объединение датасетов;
➖ Базовые статистические операции.

import pandas as pd

# Пример использования
df = pd.read_csv('data.csv') # записывает в датафрейм данные из файла csv
df.head() # выводит первые строки датафрейма

2️⃣

NumPy — математика для больших данных

➖ Работа с массивами и матрицами;
➖ Математические операции;
➖ Генерация случайных чисел.

import numpy as np

# Пример
array = np.array([1, 2, 3, 4, 5]) # создаёт одномерный массив
mean = np.mean(array) # вычисляет среднее значение массива

3️⃣

Matplotlib и Seaborn — визуализация данных, обычно датафреймов

Позволяют строить графики любого типа: точечные, круговые, гистограммы, ящики с усами и многое другое. Визуализации помогают не только анализировать конечный результат, но и выполнять предобработку и очистку данных.

import matplotlib.pyplot as plt
import seaborn as sns

# Простой график по точкам
plt.plot([1, 2, 3], [4, 5, 6])
plt.show()

4️⃣

Scipy — это уже следующий уровень, основы статистического анализа

from scipy import stats

# Проведение t-теста для независимых выборок
# Сравнивает средние значения двух групп данных
# Помогает определить, есть ли статистически значимые различия между выборками
result = stats.ttest_ind(data1, data2)  # data1 и data2 — массивы сравниваемых данных

5️⃣

Statsmodels — ещё более продвинутая статистика

➖ Регрессионный анализ;
➖ Временные ряды;
➖ Эконометрика.

import statsmodels.api as sm

# Простая линейная регрессия
model = sm.OLS(y, x).fit()

Для разработки на Python можно использовать:

🟠

Jupyter Notebook и продвинутая среда JupiterLab, которые поставляются, в частности, с пакетом Anaconda;

🟠

Google Colab — простая, но мощная «модернизация» Jupiter для пользователей Google;

🟠

Visual Studio Code — универсальная среда для профессиональных разработчиков.

А во вторник жду вас на вебинаре «Первичный анализ и очистка данных с помощью Python», где я на примере покажу, как начать работу с данными с помощью Python.

➡️

Зарегистрироваться на вебинар

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤75

1.42K viewsedited 11:04

Экспресс-оптимизация SQL-запроса на реальном кейсе

Привет! На связи Владимир Лунев, ментор тренинга «Продвинутый SQL». Давайте разберём кейс, где простые приёмы оптимизации могут ускорить выполнение запроса в несколько раз.

Представим, что у нас есть база заказов крупного интернет-магазина с реальными объёмами данных. Индексов нет. Всё выполняется на сырых таблицах. СУБД PostgreSQL.

Задача: посчитать для каждой категории количество заказов, суммарную выручку и средний чек за август 2025 только для завершённых заказов (со статусом completed).

Состав БД:
Таблица orders (5 млн строк) с полями:

➖

id — уникальный идентификатор заказа;

➖

product_id — ID продукта;

➖

order_date — дата заказа;

➖

amount — сумма заказа;

➖

status — статус заказа, например, completed.

Таблица products (2 тыс. строк):

➖

id — ID продукта;

➖

category_id — ID категории;

➖

price — цена.

Таблица categories (100 строк):

➖

id — ID категории;

➖

name — название категории.

Исходный запрос (медленный), ожидаемое время выполнения 4-5 минут:

SELECT 
    c.id,  # идентификатор категории
    c.name AS category,  # название категории
    COUNT(o.id) AS orders_count,  # количество заказов
    SUM(o.amount) / COUNT(o.id) AS avg_check  # средний чек (ручное деление)
FROM orders o
JOIN products p ON o.product_id = p.id  # соединяем с таблицей продуктов
JOIN categories c ON p.category_id = c.id  # соединяем с категориями
WHERE 
    o.status = 'completed'  # фильтруем только завершённые заказы
    AND o.order_date >= '2025-08-01'  # начало периода (строковый литерал)
    AND o.order_date < '2025-09-01'  # конец периода
GROUP BY c.id, c.name   # группировка по категории (строка и id)
ORDER BY SUM(o.amount) DESC;  # сортировка по суммарной выручке

Почему медленно:
➖ JOIN происходит на 5 млн строк без фильтрации.
➖ GROUP BY по c. name — сравнение строк (TEXT) вместо чисел, это дополнительная нагрузка.
➖ AVG считается вручную (SUM / COUNT) — выполняется две агрегации.
➖ Фильтр по дате задан как строка — типы приводятся динамически, что замедляет план выполнения.

Оптимизированный запрос (быстрее в ~10 раз!), ожидаемое время выполнения 25-30 секунд:

WITH filtered_orders AS (
    # Сначала фильтруем все нужные заказы в отдельном CTE
    SELECT *
    FROM orders
    WHERE status = 'completed'  # только завершённые
      AND order_date >= DATE '2025-08-01'  # явное указание типа DATE
      AND order_date < DATE '2025-09-01'
)
SELECT 
    c.id,  # id категории
    c.name AS category,  # название категории
    COUNT(fo.id) AS orders_count,  # количество заказов
    SUM(fo.amount) AS total_sales,  # суммарная выручка
    AVG(fo.amount) AS avg_check  # средний чек (встроенная функция)
FROM filtered_orders fo
JOIN products p ON fo.product_id = p.id  # соединяем уже отфильтрованные заказы
JOIN categories c ON p.category_id = c.id  # соединяем с категориями
GROUP BY c.id  # PK, группировка по ID (name подтянется автоматически)
ORDER BY total_sales DESC;  # сортировка по суммарной выручке

Что изменилось и почему быстрее:
➖ CTE filtered_orders — с EXPLAIN ANALYZE видно, что количество строк на JOIN сократилось примерно до ~500 тыс. строк вместо 5 млн, т. е. 90%!
➖ GROUP BY c.id — сравнение по числу вместо текста, PostgreSQL подтягивает c.name автоматически.
➖ AVG() вместо SUM/COUNT — встроенная оптимизация движка.
➖ Явное указание типа даты (DATE '2025-08-01') — СУБД не тратит время на приведение типов.

На больших таблицах корректная структура запроса может кардинально влиять на скорость выполнения. В результате правильно построенный запрос может обрабатываться в 10-100 раз быстрее, чем прямой вариант с лишними вычислениями и сортировками.

❗️ Оптимизация SQL — это понимание того, как СУБД выполняет операции и как конкретный юзер может эффективно сэкономить свое время и бонусом ресурсы сервера. Ещё больше кейсов и рекомендаций будет на вебинаре 24 сентября — приходите, расскажу про свои способы оптимизации SQL-запросов.

➡️

Зарегистрироваться на вебинар

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤65

1.42K views13:05

Сегментация клиентов с помощью машинного обучения

Привет! С вами Кристина Желтова, ментор курса «ML-инженер».

В персонализации клиентского сервиса и маркетинге важно правильно сегментировать клиентов — разделять клиентскую базу на группы (сегменты) на основе их характеристик.

Эту задачу можно решать разными способами, в том числе с помощью машинного обучения. Если нужно обработать большой набор данных или получить модель, которая может быть гибкой и адаптивной в реальном времени, на помощь придёт кластеризация — набор методов без учителя для группировки данных по определённым критериям.

В качестве датасета возьмем небольшой набор данных Mall Customer Segmentation с Kaggle:

path = kagglehub.dataset_download("vjchoudhary7/customer-segmentation-tutorial-in-python")
df = pd.read_csv('/kaggle/input/customer-segmentation-tutorial-in-python/Mall_Customers.csv')

Один из самых простых и известных методов кластеризации — KMeans. Он разделяет данные на K кластеров, находя центроиды (центры) каждого кластера и группируя точки данных вокруг ближайших центроидов.

❗️ Важно: KMeans не предназначен для работы с категориальными признаками. Их нужно либо анализировать отдельно, либо применять другие алгоритмы кластеризации, поддерживающие смешанные датасеты.

clustering_features = ['Age', 'Annual Income (k$)', 'Spending Score (1-100)']
X = df[clustering_features].copy()

Перед применением алгоритма KMeans важно провести масштабирование признаков, иначе признаки с большими единицами измерения будут «перетягивать на себя» расстояния и смещать всё решение.

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)
X_scaled_df = pd.DataFrame(X_scaled, columns=clustering_features, index=X.index)

При использовании KMeans всегда есть некоторая неопределенность — этому алгоритму нужно заранее задать, на сколько кластеров/групп мы будем разделять данные. Иногда это предположение можно сделать экспертно, но можно попробовать и подобрать оптимальное количество групп, используя «метод локтя» — перебираем количество кластеров, визуализируя на графике сумму квадратов расстояний от каждой точки до центра её кластера. Точка перегиба, где график «сгибается» как локоть руки, и будет оптимальным количеством кластеров.

inertias = []

k_values = range(2, 11)

for k in k_values:
    # Обучаем K-means с конкретным k
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    cluster_labels = kmeans.fit_predict(X)
    
    inertia = kmeans.inertia_
    inertias.append(inertia)

После такого подбора можно переобучить модель с подобранным k, определить каждого клиента в свой кластер и приступить к визуальному анализу. В задаче кластеризации есть довольно много общих метрик качества, но лучше всего всегда посмотреть глазами на то, что получилось.

➡️ Более подробный пример можно посмотреть в colab notebook.

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13🔥63

1.69K views10:05

⚡️ Вебинар: первичный анализ и очистка данных с помощью Python Данные в аналитике зачастую требуют предобработки и очистки: пропуски, некорректные значения или типы данных. Если не проверить и не почистить такие данные, выводы в отчётах будут неточными, а…

⚡️

Вебинар по анализу данных в Python уже идёт!

Подключайтесь, чтобы узнать, как быстро проверить и визуализировать данные в Python на примере сервиса по продаже подержанных авто.

➡️

Регистрируйтесь и подключайтесь по ссылке: https://vk.cc/cPLa3m

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍42

1.53K views16:05

This media is not supported in your browser

VIEW IN TELEGRAM

Знакомая ситуация?

Запускаете запрос, ждёте… а Excel уже подвис, BI-система крутит loading, и коллеги начинают писать, что там с отчётом.

99% таких ситуаций — не вина сервера, а ошибки в самом SQL-запросе. И да, это можно исправить.

Уже сегодня на вебинаре спикер тренинга «Продвинутый SQL» Владимир Лунев расскажет:

🟠 Как понять, что запрос тормозит, и чем это грозит бизнесу;
🟠 Как читать план выполнения (EXPLAIN, EXPLAIN ANALYZE) и находить ошибки;
🟠 Типовые причины медленных запросов и как их исправлять;
🟠 7 реальных кейсов из практики: «было → стало» с разбором кода.

😶

😶

Регистрация

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥74

1.76K viewsedited 08:05

Знакомая ситуация? Запускаете запрос, ждёте… а Excel уже подвис, BI-система крутит loading, и коллеги начинают писать, что там с отчётом. 99% таких ситуаций — не вина сервера, а ошибки в самом SQL-запросе. И да, это можно исправить. Уже сегодня на вебинаре…

⚡️ Уже начали вебинар по SQL, подключайтесь!

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥44

1.54K views16:10

Clickhouse: что это за СУБД и для чего нужна

NoSQL СУБД типа Clickhouse заточены под определённый тип задач. Clickhouse нужна прежде всего для решения OLAP-задач — например, рассчитать какую-либо метрику типа CTR поверх всех действий всех пользователей в приложении.

Разобрали в статье, чем отличается Clickhouse от Postgres, её архитектурные особенности и возможности, а также как начать работать с СУБД.

🟡

Читать статью в блоге

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥52

1.59K viewsedited 09:05

Друзья, спасибо всем, кто посетил наши вебинары!

Записи занятий уже лежат в боте ✅

Продолжаем держать низкие цены на продвинутый тренинг по SQL — напомним, что это такое:

😶

Углубляемся в SQL и повышаем грейд: разбираем оптимизацию SQL-запросов, анализ качества данных и трендов на основе исторических данных в SQL;

😶

6 домашних заданий и 1 кросс-проверка, где студенты проверяют код друг друга;

😶

Практический проект для отработки полученных навыков и разбор тестового задания на senior-позицию.

Автор курса — Владимир Лунев, Fullstack-аналитик в Магните с более чем 5-летним опытом в системном и бизнес-анализе, ведёт авторский Telegram-канал SQL: Реляционные базы данных.

Регистрируйтесь и прокачивайте свой скилл в SQL!

➡️

Записаться по ранней цене

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤54🤩1

1.51K viewsedited 11:05

Soft skills в ML. Почему навык коммуникации критичнее знания SOTA?

Привет! Вновь на связи Кристина Желтова, ментор курса «ML-инженер».

Среди начинающих специалистов бытует мнение, что ключ к карьерному успеху — крепкие харды и знание нюансов свежих архитектур и технологий. Без hard skills действительно невозможно успешно решать рабочие задачи, однако практика показывает, что именно «софты» часто становятся решающим фактором карьерного роста ML-инженера.

Список инструментов в ML-стеке постоянно расширяется, новые архитектуры появляются каждый месяц, но кое-что остаётся неизменным — необходимость работать с людьми, объяснять решения и адаптироваться к изменениям.

Многие исследования показывают, что команды с высоким эмоциональным интеллектом демонстрируют лучшую производительность. В ML-проектах, где техническая сложность идет рука об руку с неопределённостью результата, этот показатель выкручен на максимум.

🤔 Представьте ситуацию: вы потратили месяцы на разработку качественной и технически мощной антифродовой модели, но когда пришло время презентации перед стейкхолдерами, ваша техническая экспертиза стала барьером в коммуникации — нюансы предобработки, архитектурные особенности модели, даже ML-метрики и результаты валидации часто звучат для заказчиков как «белый шум», за которым они пытаются разглядеть что-то важное и понятное для себя, если у них ещё остались на это силы и время.

Когда-то давно у меня была подобная ситуация, когда во время демонстрации результатов и дорожной карты решения я радостно рекламировала крутые подходы с топологическим анализом данных и мощной аналитикой для улучшения моделей, хотя по сути их интересовало далеко не это.

Основные советы, которые помогут сразу быть на одной волне с заказчиком можно уместить в несколько тезисов:

🟠

Начинайте коммуникацию с проблемы. Не с архитектуры модели и тяжеловесных подробностей, а с задачи, которую решаете и возможных бизнес-эффектов решения.

🟠

Объясняйте не только возможности модели, но и её ограничения. Это строит доверие и предотвращает нереалистичные ожидания.

🟠

Подстраивайте презентацию и рассказ под аудиторию. Краткий и ёмкий отчет для руководства, более подробные слайды для менеджеров проектов и технические детали для коллег-разработчиков.

Но главное — не противопоставляйте soft skills и hard skills, развивайте их параллельно. Глубокие технические знания дают возможность успешно решать задачи, а развитые «мягкие» навыки помогают эффективно презентовать эти задачи и извлекать из них максимальную пользу для карьеры.

🧡 Кстати, с хардами я могу помочь! Уже сегодня стартует новый поток курса «ML-инженер», где вы научитесь создавать модели машинного обучения, строить рекомендательные системы и обучать нейросети. Время пришло, решайтесь!

🔔

Записаться на поток

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤53

1.32K viewsedited 09:04

Харды и софты аналитика данных

Привет, коллеги! На связи Павел Беляев, ментор курса «Дата-аналитик» и автор канала Тимлидское об аналитике.

Несколько слов о скиллах, необходимых дата-аналитику в моём понимании. Это те навыки, которые я выделил за несколько лет опыта и стараюсь развивать в себе и в участниках моей команды.

Hard skills:
👑 SQL — must have;
👑 Clickhouse, PostgreSQL и другие СУБД — must have;
👑 Python + pandas — must have;
😶 Электронные таблицы — крайне желательно;
*️⃣ Airflow или другие средства автоматизации — желательно;
*️⃣ Яндекс.Метрика или другие системы веб-аналитики, любой Tag Manager — желательно;
*️⃣ Git — желательно;
*️⃣ BI-системы — будет плюсом.

Soft skills
А вот тут хотел бы остановиться подробней. Каждый пунктик глубоко осмыслен и необходим!

🟡

Внимательность и дотошность. Для специалиста, имеющего дело с данными, крайне важно видеть в них изъяны и не пропустить ничего существенного. То есть постоянно проверять цифры, значения, нестыковки, выяснять причины нестыковок и расхождений, докапываться до истины и при этом не сходить с ума, а может, даже находить в этом удовольствие — чертовски важный навык.

🟡

Коммуникабельность, умение излагать мысли. Дата-аналитик — не кондовый технарь, и взаимодействие с людьми, причём с разными и со многими, составляет немалую часть его работы. Поэтому уметь понять, что хочет заказчик, а иногда и помочь ему это понять, а также объяснить задачу разработчикам или дата-инженерам — must have.

🟡

Изобретательность. В дата-аналитике бывают рутинные, шаблонные задачи, и их стараются поскорее автоматизировать. А вот новых задач, вызовов и требований — сколько угодно. Поэтому умение подобрать или сгенерировать решение технической или аналитической проблемы очень полезно.

🟡

Самостоятельность. Это лично от меня :) Впрочем, полагаю, любой руководитель хотел бы, чтобы его сотрудники были способны сами решать вопросы с заказчиками, добывать информацию, организовывать нужные процессы в рамках своих задач и т. д.

🟡

Нацеленность на результат. Всё вышеперечисленное почти бессмысленно без этого. Аналитики — активные и важные участники функционирования бизнеса, они повышают его управляемость. Выходит, на них висит немалая доля ответственности за «здоровье» бизнеса. Не знаю, можно ли научить сотрудника ответственности, поэтому стараюсь подбирать к себе людей, кто изначально хочет быть полезным, доводить любое дело до логического завершения, не терпит висюков и долгов.

🟡

Доброжелательность. Удивительно, но с этим качеством все взаимодействия становятся проще! Да и приятнее работать в дружном коллективе, чем в токсичном или отстраненном, не так ли?

🟡

Любознательность, интерес к технике и бизнесу, обучаемость. Дата-аналитику приходится работать с крайне изменчивыми сущностями — развивающийся бизнес, прогрессирующая сфера IT, а также сами люди, которые никогда не устают удивлять. Поэтому лучше сразу нацелиться на постоянный рост и бесконечное саморазвитие. В конце концов, не в этом ли одна из основ жизни вообще?

Софтам тоже можно научиться, главное держать их в фокусе внимания и время от времени проводить самоанализ.

Ну а по хардам — добро пожаловать на курс «Аналитик данных», там есть всё что нужно и даже больше. Кстати, он стартует уже сегодня! Так что, если вы ждали знака записаться, то это он. Действуйте!

➡️

Успеть записаться

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥8👍44

1.47K viewsedited 11:04

5 SQL-принципов, которые использует senior-аналитик

Привет! На связи Владимир Лунев, fullstack-аналитик и автор тренинга «Продвинутый SQL».

Аналитик уровня senior — это не только тот, кто знает сложные JOIN’ы, но и умеет строить из них систему. Если вы хотите перейти от просто метрик к построению аналитической культуры в компании, вот несколько универсальных принципов:

1️⃣

Читаемость важнее краткости

Запрос должен не только хорошо работать, но и быть понятен коллеге даже через полгода. Используйте осмысленные имена CTE (например, new_users, а не cte1), вертикальное форматирование, комментарии для неочевидной логики и единый стиль — например, ключевые слова заглавными буквами.

2️⃣

Оконные функции

ROW_NUMBER(), RANK(), LAG(), LEAD(), SUM() OVER() — это базовый инструмент для любого продвинутого анализа. С их помощью вы сравниваете периоды без self-join’ов, считаете кумулятивные метрики и выделяете топ-N в сегментах. Большинство задач, требующих нескольких подзапросов, решаются одной оконной функцией.

3️⃣

Проверяйте данные

Senior-аналитик — это детектив данных. Перед тем как строить выводы, всегда задавайте вопросы:
🟠 Есть ли дубли по уникальному ключу?
🟠 Есть ли аномальные значения (отрицательные цены, даты/id не из нужного диапазона)?
🟠 Сколько пропусков в ключевых полях?
🟠 Соответствует ли распределение ожиданиям?

Простой пример проверки (все user_id должны быть уникальны и заполнены):

SELECT 
  COUNT(*) AS total,
  COUNT(user_id) AS non_null_user_id,
  COUNT(DISTINCT user_id) AS unique_users
FROM events;

Если non_null_user_id < total — у вас есть пропуски в данных.
Если unique_users < non_null_user_id — дубли.

4️⃣

Оптимизируйте не ради скорости, а ради устойчивости

Senior-аналитик не гонится за самым быстрым запросом и избегает тех, которые ломают систему вызывая высокую нагрузку и длительное ожидание выполнения.

Универсальные правила:
➖ Не используйте SELECT * — запрашивайте только нужные поля;
➖ Избегайте вложенных подзапросов там, где хватит JOIN’а;
➖ Ограничивайте выборки на ранних этапах (WHERE до GROUP BY);
➖ Не делайте DISTINCT «на всякий случай» — разбирайтесь, почему возникают дубли.

5️⃣

Понимайте источник данных, не только таблицу

Опытный аналитик знает, как данные попадают в таблицу, как часто обновляются и есть ли задержки — например, данные за вчера доступны только к 10 утра. Ваш запрос всегда должен давать один и тот же результат при повторном запуске (при условии, что данные в БД не поменялись). Это помогает интерпретировать результаты правильно и не делать ложных выводов.

🧡 Начните применять эти принципы, и вы перестанете быть тем, кто пишет только запросы. Вы станете тем, к кому приходят за решениями!

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18🔥14👍55

1.74K views09:05

Делимся огненным проектом нашего студента

🔥

Мы получаем много итоговых работ на курсе «Аналитик данных», но одной хотим поделиться особенно. Студентка Татьяна Смоленкова виртуозно решила наш кейс и разрешила поделиться им с подписчиками 😉

Дальше передаём слово Татьяне!

В качестве финальной работы ты не просто выполняешь очередное задание, а строишь целую инфраструктуру. Есть пространство для творчества и воплощения интересных идей.

У меня получился проект, где каждый день в 7 утра cron запускает сбор данных по API, обновляет базу PostgreSQL и дашборд в Metabase. В 8:00 отправляется утренний отчёт в Telegram. Все процессы логируются, синхронизируются с GitHub и автоматически коммитятся. Вся система, от базы до визуализации, развёрнута на моём сервере.

Также на основе данных за 2023 год я провела два полноценных исследования: по товарам и по клиентской базе. В первом анализировала стабильность продаж, чувствительность к скидкам и выручку, во втором — сегментировала клиентов и изучала удержание.

Что особенно помогло при выполнении проекта — понимание, что делаешь его не просто «для галочки», а его реально будут внимательно изучать, подмечать хорошие и плохие стороны и дадут полезные рекомендации — как, впрочем, и во всех остальных проектах курса. Если что-то не понятно или в чём-то не уверен, то всегда можно задать вопросы преподавателям, студентам, службе поддержки — ты часть команды и часть корабля, который бороздит океан данных.

Поэтому большое спасибо всей этой дружной команде. Путь пройден большой, но это точно не конец!

👩‍💻

Смотреть проект на GitHub с дашбордами и графиками

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥38❤8👍72

1.76K views09:05

Дарим методичку по рекламным метрикам

Собрали в одном файле основные рекламные метрики на примерах реального бизнеса, которые должен знать и уметь рассчитывать каждый аналитик. Скорее забирайте методичку себе!

Что внутри:

😶 Метрики, которые важны для оценки эффективности рекламных кампаний и советы, как их правильно измерять;
😶 Примеры расчётов и формул для быстрой и точной оценки результатов рекламных кампаний;
😶 Советы по оптимизации рекламных кампаний и улучшению их результативности на основе анализа метрик.

💿

Получить материал

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥63

1.44K views11:05

Отвечаем на вопросы про тренинг SQL

Всем привет, это Владимир Лунев, fullstack-аналитик и автор тренинга «Продвинутый SQL».

После анонса тренинга приходит много вопросов, и я постарался ответить на самые частые из них:

❓

Кому подойдёт тренинг?

Если коротко, то всем, кто работает с SQL и хочет выйти на новый уровень.

Аналитик, разработчик, data scientist, product-менеджер или руководитель — если вы регулярно пишете SQL-запросы и хотите начать это делать более эффективно, тренинг для вас. Вы не просто научитесь писать более сложные запросы — вы освоите инструменты, которые позволят решать многие бизнес-задачи напрямую в SQL, без перекладывания всего на Python или Excel.

❓

Какими знаниями я должен обладать на старте?

На старте достаточно базовых знаний SQL — уметь писать простые SELECT-запросы, работать с таблицами, фильтровать и агрегировать данные, а также уметь понимать структуру данных, с которыми вы будете работать. Это позволит сразу включиться в практику и эффективно усваивать материал тренинга.

❓

Что я получу на выходе?

➖

Эффективные запросы. Научитесь писать SQL, который работает быстро даже на больших объёмах данных. Разберётесь в планах выполнения, оптимизации и управлении ресурсами БД.

➖

Контроль качества данных. Будете находить дубликаты, логические несогласованности и аномалии данных до того, как они попадут в отчёт или дашборд.

➖

Прогнозирование и анализ трендов. Оконные функции, когортный анализ, метрики удержания (churn), сезонные индексы — всё это будете считать прямо в SQL.

➖

Сценарный анализ what-if. Сможете смоделировать, как изменение цены, объёма продаж или маркетинговых расходов повлияет на итоговые метрики без внешних инструментов.

➖

Продвинутые метрики и структурный анализ. Growth, hitrate, конверсии, YoY, план-факт, AB-тесты, вложенные агрегаты — вы научитесь считать всё это корректно и быстро.

➖

Работа со сложными структурами. Рекурсивные запросы, деревья событий, цепочки действий пользователей, обход графов — освоите инструменты для глубокого поведенческого анализа.

👑

И самое главное — системное мышление. Вы перестанете воспринимать SQL как «язык для выгрузки данных». Вместо этого вы начнёте думать на языке данных: видеть связи, строить логику анализа, предлагать решения, которые экономят время всей команды.

🔔 Готовы прокачать свой SQL до уровня, когда вы — не просто исполнитель, а стратег? Тогда тренинг точно для вас. Кстати, до завтра ещё есть возможность записаться по самой низкой цене, так что успевайте записаться!

➡️

Записаться на тренинг

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤64

1.39K views13:05

Вебинар: чем отличаются направления в аналитике

BI, маркетинговая, продуктовая аналитика — на первый взгляд всё кажется похожим, но на практике задачи и цели сильно различаются.

На вебинаре с Денисом Ивановым разберём реальные кейсы из бизнеса: от продуктовых исследований и маркетинговых кампаний до поддержки дашбордов и BI-отчётов. Вы увидите, какую пользу каждый тип аналитика приносит бизнесу и определитесь, какое направление подходит именно вам.

Что вы узнаете:
➖ Какие направления аналитики существуют: бизнес, продуктовая, маркетинговая, BI, ML — и чем они реально отличаются;
➖ Зачем компании нанимают аналитиков в разных областях и какие задачи они решают;
➖ Какие навыки прокачать новичку, чтобы быть востребованным и универсальным;
➖ Плюсы и минусы каждого направления и где проще стартовать с нуля.

🟠 Записывайте дату и время: 2 октября, 19:00 МСК

💬 Подключайтесь к прямому эфиру, чтобы задать вопросы эксперту и понять, какое направление аналитики подойдёт именно вам!

➡️

Зарегистрироваться на вебинар

📊

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥6❤41

1.41K views07:05