Практикуем SQL на кейсе интернет-магазина
SQL — ключевой инструмент аналитика, но уметь писать запросы недостаточно. Главная задача — превратить сырые данные в понятные бизнес-решения.
На вебинаре с Вугаром Дамировым мы разберём реальный кейс e-commerce и покажем полный цикл работы: от написания SQL-запроса до визуализации выводов в Superset. Вы увидите, как аналитик находит точки роста для бизнеса и какие конкретные метрики нужно уметь извлекать из базы.
На вебинаре расскажем:
➖ Как писать SQL-запросы для извлечения ключевых бизнес-метрик на примере данных интернет-магазина;
➖ Как находить драйверов и аутсайдеров продаж, чтобы оптимизировать ассортимент и маркетинговые усилия;
➖ Как определить самых ценных клиентов (с высоким средним чеком AOV) и сезонность продаж для точного планирования;
➖ Как визуализировать SQL-выводы в инструментах типа Superset (или BI-аналогах), чтобы результат был понятен руководителю;
➖ Как находить и представлять ценные инсайты для бизнес-заказчиков.
❗️ Встречаемся 8 октября в 19:00 МСК
➡️ Зарегистрироваться на вебинар
📊 Simulative
SQL — ключевой инструмент аналитика, но уметь писать запросы недостаточно. Главная задача — превратить сырые данные в понятные бизнес-решения.
На вебинаре с Вугаром Дамировым мы разберём реальный кейс e-commerce и покажем полный цикл работы: от написания SQL-запроса до визуализации выводов в Superset. Вы увидите, как аналитик находит точки роста для бизнеса и какие конкретные метрики нужно уметь извлекать из базы.
На вебинаре расскажем:
♾ Подключайтесь к прямому эфиру, чтобы задать Вугару вопросы по SQL, бизнес-кейсу и инструментам визуализации. Получите готовый мини-проект для своего портфолио!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥4 3
Приветствую, любители аналитики! На связи Павел Беляев, ментор курса «Аналитик данных», ведущий Тимлидского об аналитике.
Известно, что главные hard skills для аналитика данных — это Python и SQL. Расскажу, для каких задач они используются у нас в eLama.
⚡️ SQL
Прежде всего, это язык «общения» с базами данных, будь то источники или аналитическое хранилище. Чтобы что-то положить в БД или взять оттуда, мы прибегаем к SQL, даже если операция производится из Python-скрипта.
Например, вот так выглядит выполнение запроса к Clickhouse:
Кроме того, большую часть преобразований данных, то есть реализацию витрин данных, мы производим тоже на SQL. Код преобразований в виде представлений (view), как и сами данные, располагается в аналитическом хранилище (в нашем случае — в Clickhouse). Представления — это, по сути, сохранённые запросы, к которым можно обращаться как к таблицам.
Код представлений может быть довольно велик и сложен, но всё же остаётся более наглядным и удобным для чтения, чем Python-код, выполняющий аналогичные действия.
⚡️ Python
Его используем для автоматизации работы с данными, а также для сложных расчётов, неосуществимых на SQL. К задачам автоматизации можно отнести:
➖ Сбор и транспорт сырых данных из источников (БД, API, файлы и т. д.) в аналитическое хранилище;
➖ Выполнение регулярных задач: обновление витрин данных, проверка качества данных, поиск устаревших витрин и т. д.
Сложные вычисления, такие как прогнозирование, кластеризация, классификация тоже реализуются средствами Python, ведь в нём имеется огромный арсенал библиотек, закрывающих любые потребности аналитика.
Наконец, на питоне можно создавать свои сервисы для заказчиков не-аналитиков. Например, у нас имеется:
➖ Self-Service, позволяющий пользователю, не зная кода, установить в формочке нужные параметры и получить выгрузку с данными;
➖ Сегментатор, который извлекает сегменты юзеров по заданным критериям;
➖ Классификатор тематик, определяющий тематику указанного сайта по его контенту и другие.
Все они написаны на Python.
Python — невероятно мощный инструмент благодаря своей компактности, простоте и многофункциональности. И при этом он быстро интегрирует в себя новые тренды. Например, использование нейросетей в питоне — дело нескольких строк кода!
📊 Simulative
Известно, что главные hard skills для аналитика данных — это Python и SQL. Расскажу, для каких задач они используются у нас в eLama.
Прежде всего, это язык «общения» с базами данных, будь то источники или аналитическое хранилище. Чтобы что-то положить в БД или взять оттуда, мы прибегаем к SQL, даже если операция производится из Python-скрипта.
Например, вот так выглядит выполнение запроса к Clickhouse:
from clickhouse_driver import Client # библиотека для работы с Clickhouse
from env import YANDEX_TOKEN, CLICKHOUSE_HOST, CLICKHOUSE_USER, CLICKHOUSE_PASSWORD
client = Client( # создаем подключение
host=CLICKHOUSE_HOST,
port=9000,
user=CLICKHOUSE_USER,
password=CLICKHOUSE_PASSWORD
)
query = "SELECT * FROM datamart.data_table"
result = client.execute(query) # исполняем SQL-запрос
Кроме того, большую часть преобразований данных, то есть реализацию витрин данных, мы производим тоже на SQL. Код преобразований в виде представлений (view), как и сами данные, располагается в аналитическом хранилище (в нашем случае — в Clickhouse). Представления — это, по сути, сохранённые запросы, к которым можно обращаться как к таблицам.
Код представлений может быть довольно велик и сложен, но всё же остаётся более наглядным и удобным для чтения, чем Python-код, выполняющий аналогичные действия.
Его используем для автоматизации работы с данными, а также для сложных расчётов, неосуществимых на SQL. К задачам автоматизации можно отнести:
Сложные вычисления, такие как прогнозирование, кластеризация, классификация тоже реализуются средствами Python, ведь в нём имеется огромный арсенал библиотек, закрывающих любые потребности аналитика.
Наконец, на питоне можно создавать свои сервисы для заказчиков не-аналитиков. Например, у нас имеется:
Все они написаны на Python.
Python — невероятно мощный инструмент благодаря своей компактности, простоте и многофункциональности. И при этом он быстро интегрирует в себя новые тренды. Например, использование нейросетей в питоне — дело нескольких строк кода!
Словом, SQL это база, а Python — это серьёзная работа. Каким языком чаще пользуетесь вы и для каких задач?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥8 3
Хотите не просто работать с данными, а превращать их в понятные и ценные инсайты для бизнеса?
Курс «BI-аналитик» поможет прокачать этот навык и освоить профессию, которая востребована во всех компаниях, где решения принимаются на основе данных.
На курсе вы:
🟠 Разберётесь в ключевых продуктовых метриках и поймёте, как их использовать в аналитике;
🟠 Научитесь визуализировать данные и создавать понятные, логичные и красивые дашборды;
🟠 Освоите работу с Power BI и Superset — двумя самыми популярными BI-системами;
🟠 Поймёте, как устроены базы данных и хранилища на примере PostgreSQL и Clickhouse, и научитесь писать SQL-запросы.
Если хотите научиться объяснять бизнесу цифры простым языком и строить решения на основе данных — присоединяйтесь!
➡️ Оставить заявку
📊 Simulative
Курс «BI-аналитик» поможет прокачать этот навык и освоить профессию, которая востребована во всех компаниях, где решения принимаются на основе данных.
На курсе вы:
Успевайте — уже в эту пятницу стартует новый поток! Залететь в него можно со скидкой 25% ✨
Если хотите научиться объяснять бизнесу цифры простым языком и строить решения на основе данных — присоединяйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4🔥3 2
Привет! Это Владимир Лунев, автор тренинга «Продвинутый SQL». Принёс вам задачу под вечер по анализу продаж в интернет-магазине электроники. Пишите в комментариях решение, завтра опубликуем верный ответ:
A)
B)
C)
📊 Simulative
Интернет-магазин продаёт смартфоны, ноутбуки и аксессуары. Все заказы хранятся в одной таблице (orders). Менеджер хочет понять, какие товары приносят больше всего выручки и как обстоят дела с возвратами и даёт поручение аналитику.
Таблица orders
order_id SERIAL PRIMARY KEY,
customer_id INTEGER,
product_name TEXT,
category TEXT CHECK (category IN ('smartphone', 'laptop', 'accessories')),
order_date DATE,
amount NUMERIC(10,2),
is_returned BOOLEAN
❓ Найдите общую сумму невозвращённых заказов (is_returned = FALSE) за март 2024 года по каждой категории.➖ Выведите category и total_revenue (сумма amount).➖ Отсортируйте по убыванию выручки.
Какой из запросов, написанных аналитиком, верен?
A)
SELECT
category,
SUM(amount) AS total_revenue
FROM
orders
WHERE
order_date >= '2024-03-01'
AND order_date < '2024-04-01'
AND is_returned = FALSE
GROUP BY
category
ORDER BY
total_revenue DESC;
B)
SELECT
category,
SUM(amount) AS total_revenue
FROM
orders
WHERE
order_date >= '2024-03-01'
AND order_date < '2024-04-01'
GROUP BY
category
HAVING
is_returned = FALSE
ORDER BY
total_revenue DESC;
C)
SELECT
category,
SUM(amount) AS total_revenue
FROM
orders
WHERE
EXTRACT(MONTH FROM order_date) = 3
AND is_returned IS DISTINCT FROM TRUE
GROUP BY
category
ORDER BY
total_revenue DESC;
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤5 4
Всем привет! На связи Кристина Желтова, ментор курса «ML-инженер» 👋
Сейчас задача звучит как вполне решаемая, но в то время, в мире, где не было готовых курсов, понятных гайдов, а scikit-learn только-только начинал набирать популярность, каждый алгоритм приходилось писать с нуля, продираясь сквозь англоязычные научные статьи. Довольно часто из-за очевидных ошибок кластеризация не заводилась или работала не так, как должна, и не было GPT, чтобы подсказать, где ошибка.
Однако самое сложное было не в математике или программировании. Самое сложное — это отсутствие комьюнити. Не было Telegram-чатов с экспертами, YouTube-каналов с разборами алгоритмов, понятных курсов без математической жести.
Но знаете что? В итоге оно получилось, заработало, а со временем пришло понимание алгоритмов, накопилась база знаний, появились пет-проекты, первая работа в ML, хотя путь был в разы сложнее, чем мог бы быть с правильным наставничеством.
Сильно позже, когда я уже начала преподавать, у меня была чёткая цель: стать тем ментором, которого мне так не хватало. Я знаю, каково это — тонуть в статьях, книгах, курсах, не понимая, как структурировать свой путь и применить теорию на практике.
Сейчас, работая над курсом «ML-инженер», я делаю то, о чём когда-то мечтала — адаптирую сложный материал для людей разного уровня, превращаю математические формулы в понятные объяснения и показываю, как теория работает в реальных проектах.
➡️ Записаться на поток ML-инженера со скидкой 25%
📊 Simulative
Помните свой первый проект в ML? У меня это было аж десять лет назад — ещё в колледже, когда я пыталась создать модель для кластеризации музыки, чтобы находить похожие, но не полностью идентичные аудиозаписи (не как в Shazam! 😅).
Сейчас задача звучит как вполне решаемая, но в то время, в мире, где не было готовых курсов, понятных гайдов, а scikit-learn только-только начинал набирать популярность, каждый алгоритм приходилось писать с нуля, продираясь сквозь англоязычные научные статьи. Довольно часто из-за очевидных ошибок кластеризация не заводилась или работала не так, как должна, и не было GPT, чтобы подсказать, где ошибка.
Однако самое сложное было не в математике или программировании. Самое сложное — это отсутствие комьюнити. Не было Telegram-чатов с экспертами, YouTube-каналов с разборами алгоритмов, понятных курсов без математической жести.
Но знаете что? В итоге оно получилось, заработало, а со временем пришло понимание алгоритмов, накопилась база знаний, появились пет-проекты, первая работа в ML, хотя путь был в разы сложнее, чем мог бы быть с правильным наставничеством.
Сильно позже, когда я уже начала преподавать, у меня была чёткая цель: стать тем ментором, которого мне так не хватало. Я знаю, каково это — тонуть в статьях, книгах, курсах, не понимая, как структурировать свой путь и применить теорию на практике.
Сейчас, работая над курсом «ML-инженер», я делаю то, о чём когда-то мечтала — адаптирую сложный материал для людей разного уровня, превращаю математические формулы в понятные объяснения и показываю, как теория работает в реальных проектах.
Приглашаю вас присоединиться и начать путь в машинном обучении без боли и страхов, под руководством опытного ментора🧡
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥7 3
Разбираем задачу по анализу продаж в интернет-магазине электроники
Условия задачи и вопрос тут, а мы делимся решением👇
Правильный ответ: A (ставьте 🎉, если решили верно)
Почему верно:
➖ Фильтр по дате: >= '2024-03-01' AND < '2024-04-01' — включает весь март 2024, не включает апрель, надёжно для DATE и TIMESTAMP.
➖ Фильтр по возвратам: is_returned = FALSE — включает только невозвращённые, исключает TRUE и NULL.
➖ Группировка: GROUP BY category — по условию задачи.
➖ Сортировка: ORDER BY total_revenue DESC — по убыванию выручки.
➖ Результат соответствует задаче.
B — ошибка: неправильное использование HAVING
➖ Ошибка: HAVING is_returned = FALSE — неправильно, потому что HAVING используется только для агрегатных функций (например, HAVING SUM(amount) > 1000). is_returned — обычное поле, а не агрегат.
➖ СУБД (например, PostgreSQL) выдаст ошибку, запрос не выполнится, и задача не будет решена.
C — ошибка. Здесь допущены логические и смысловые ошибки
➖ Нет фильтра по году: EXTRACT(MONTH FROM order_date) = 3 — включает все марты всех лет, а не только 2024.
➖ Неправильная обработка NULL: is_returned IS DISTINCT FROM TRUE — включает NULL, т. е. заказы, статус которых неизвестен, как если бы они не были возвращены.
➖ NULL IS DISTINCT FROM TRUE — TRUE-строка попадает в сумму.
➖ Результат: завышенная выручка, включая заказы из других лет и с неизвестным статусом.
📊 Simulative
Условия задачи и вопрос тут, а мы делимся решением
Правильный ответ: A (ставьте 🎉, если решили верно)
SELECT
category,
SUM(amount) AS total_revenue
FROM
orders
WHERE
order_date >= '2024-03-01'
AND order_date < '2024-04-01'
AND is_returned = FALSE
GROUP BY
category
ORDER BY
total_revenue DESC;
Почему верно:
B — ошибка: неправильное использование HAVING
SELECT
category,
SUM(amount) AS total_revenue
FROM
orders
WHERE
order_date >= '2024-03-01'
AND order_date < '2024-04-01'
GROUP BY
category
HAVING
is_returned = FALSE
ORDER BY
total_revenue DESC;
C — ошибка. Здесь допущены логические и смысловые ошибки
SELECT
category,
SUM(amount) AS total_revenue
FROM
orders
WHERE
EXTRACT(MONTH FROM order_date) = 3
AND is_returned IS DISTINCT FROM TRUE
GROUP BY
category
ORDER BY
total_revenue DESC;
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉18🔥9 3❤1
Сколько вы зарабатываете?
Не пишите в комментариях, а то мы обзавидуемся 😁
А вот коллегам из NewHR можно рассказать — они готовят очередное исследование рынка аналитиков и приглашают вас поучаствовать.
Что исследуют?
🟠 Зарплаты аналитиков и их динамику;
🟠 Рейтинг работодателей для аналитиков;
🟠 Где и как работают аналитики;
🟠 Как меняется зона ответственности аналитиков;
🟠 Как аналитики ищут работу и выбирают работодателя;
🟠 Чему учатся аналитики и каких экспертов котируют.
Зачем это вам?
Держать руку на пульсе, корректировать свой карьерный трек и знать, чего хочет бизнес от аналитиков и чего хотят сами аналитики.
♾ Заполнить опросник
📊 Simulative
Не пишите в комментариях, а то мы обзавидуемся 😁
А вот коллегам из NewHR можно рассказать — они готовят очередное исследование рынка аналитиков и приглашают вас поучаствовать.
Что исследуют?
Зачем это вам?
Держать руку на пульсе, корректировать свой карьерный трек и знать, чего хочет бизнес от аналитиков и чего хотят сами аналитики.
Опрос займёт около 20 минут. Все участники получат ранний доступ к результатам и приглашение на закрытый эфир с инсайтами исследования😱
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤9 5
Погружаемся в инженерию данных вместе с Георгием Семеновым
Да, он снова будет ментором на следующем потоке курса «Инженер данных»! Напомним факты о нём:
🟠 Более 14 лет Георгий управляет IT-проектами и продуктами, командами инженеров и аналитиков. Последние 7 лет внедрял и развивал аналитические решения и платформы на сеньорных и руководящих позициях в компаниях VK, Wildberries, СТС, ЦУМ, ВТБ. В настоящее время партнёр и CDO в стартапе Ai-Minds.
🟠 У Георгия большой опыт в области Data Governance, Data Architecture, Data Engineering и Business Intelligence. Работал с различными технологиями и архитектурами данных, инфраструктурами от одного до сотен серверов, десятков петабайт данных и десятков тысяч датасетов. Вывел в прод сотни пайплайнов и десятки дата-продуктов, включая ML-сервисы.
🟠 Кроме того, Георгий преподаёт анализ данных в НИУ ВШЭ, а также провёл более 150 индивидуальных консультаций, поэтому в его менторской экспертизе можно не сомневаться!
➡️ Узнать подробности и оставить заявку
📊 Simulative
Да, он снова будет ментором на следующем потоке курса «Инженер данных»! Напомним факты о нём:
До 22 октября можно записаться на поток с Георгием по самым ранним ценам — со скидкой 25%!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥5 2
С чего начинается путь аналитика: Excel, SQL или Python?
Привет, аналитики! На связи Александр Грудинин, ментор курса «Аналитик данных».
Любой путь в аналитику начинается с освоения фундамента, и этим фундаментом почти всегда выступает Excel. Именно он в самой доступной форме знакомит новичка с сутью работы — табличными данными. В Excel вы учитесь мыслить строками и столбцами, осваиваете базовые, но незаменимые операции: сортировку, фильтры, формулы и сводные таблицы. Это необходимая база, которая развивает «чувство данных» и готовит к работе с более сложными инструментами.
Однако в реальной работе данные редко живут в одном файле, они хранятся в базах данных. Здесь в игру вступает SQL — язык для их извлечения, который образует мощную связку с Excel. С помощью SQL вы запрашиваете и получаете гигантские массивы информации, а затем часто выгружаете их в привычный Excel. Эта комбинация — ежедневная рутина аналитика для быстрой проверки гипотез и подготовки отчетов.
Когда объёмов данных становится слишком много даже для связки SQL и Excel, а для анализа требуются сложные вычисления или автоматизация, на сцену выходит Python. С помощью его мощных библиотек, таких как Pandas, можно эффективно обрабатывать огромные датасеты, проводить сложный анализ и строить модели. Python — это ваш швейцарский нож для решения множества задач.
👇 Расскажите в комментариях, с чего вы начали свой путь в аналитике?
📊 Simulative
Привет, аналитики! На связи Александр Грудинин, ментор курса «Аналитик данных».
Любой путь в аналитику начинается с освоения фундамента, и этим фундаментом почти всегда выступает Excel. Именно он в самой доступной форме знакомит новичка с сутью работы — табличными данными. В Excel вы учитесь мыслить строками и столбцами, осваиваете базовые, но незаменимые операции: сортировку, фильтры, формулы и сводные таблицы. Это необходимая база, которая развивает «чувство данных» и готовит к работе с более сложными инструментами.
Однако в реальной работе данные редко живут в одном файле, они хранятся в базах данных. Здесь в игру вступает SQL — язык для их извлечения, который образует мощную связку с Excel. С помощью SQL вы запрашиваете и получаете гигантские массивы информации, а затем часто выгружаете их в привычный Excel. Эта комбинация — ежедневная рутина аналитика для быстрой проверки гипотез и подготовки отчетов.
Когда объёмов данных становится слишком много даже для связки SQL и Excel, а для анализа требуются сложные вычисления или автоматизация, на сцену выходит Python. С помощью его мощных библиотек, таких как Pandas, можно эффективно обрабатывать огромные датасеты, проводить сложный анализ и строить модели. Python — это ваш швейцарский нож для решения множества задач.
❓ Так какой же путь выбрать новичку? Идеальная траектория — осваивать инструменты поэтапно: начните с Excel, чтобы понять основы, затем уверенно овладейте SQL, чтобы самостоятельно доставать любую информацию. И уже после этого переходите к Python для углублённой аналитики и автоматизации. Такая последовательность создаст самый прочный фундамент для вашей карьеры.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5 4
Как построить карьеру в машинном обучении, если вы уже знаете Python
Если вы работаете с Python — пишете скрипты, анализируете данные или автоматизируете задачи — вы можете сделать следующий шаг и применить эти навыки в машинном обучении.
ML — одна из самых быстрорастущих областей IT с высокими зарплатами и сложными задачами. На вебинаре от Кристины Желтовой, директора по разработке моделей в Газпромбанке, вы получите пошаговый план, как стать ML-инженером.
В ходе вебинара разберём:
➡️ Из каких сфер чаще всего приходят в профессию ML-инженера;
➡️ Какие задачи решают специалисты в этой области;
➡️ Какие навыки, технологии и инструменты потребуются для старта в профессии;
➡️ Как перейти от теории к работе с реальными моделями и решению проблем бизнеса.
❗️ Встречаемся 15 октября в 19:00 МСК.
➡️ Зарегистрироваться на вебинар
📊 Simulative
Если вы работаете с Python — пишете скрипты, анализируете данные или автоматизируете задачи — вы можете сделать следующий шаг и применить эти навыки в машинном обучении.
ML — одна из самых быстрорастущих областей IT с высокими зарплатами и сложными задачами. На вебинаре от Кристины Желтовой, директора по разработке моделей в Газпромбанке, вы получите пошаговый план, как стать ML-инженером.
В ходе вебинара разберём:
💬 Обязательно ждем вас в лайве — вы сможете напрямую задать свои вопросы Кристине Желтовой и выстроить личный план перехода в профессию ML-инженера!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥6 3
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13❤5 3
Отлично, вы рассортировали яблоки по контейнерам! А теперь сортируем данные с помощью
ORDER BY:https://simulative.ru/blog/sql-order-by
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8❤7😱2 1
Команда Simulative на связи! 🚀
Напоминаем: у нас есть бесплатный курс «Основы SQL» — отличный способ разобраться с базой и наконец подружиться с данными.
На курсе вы:
🟠 Разберётесь с основами SQL — от простых запросов до оконных функций;
🟠 Пройдёте 70+ практических задач в PostgreSQL;
🟠 Сделаете свой первый мини-проект: проанализируете активность пользователей.
Подойдёт, если вы:
😶 только начинаете путь в аналитике и хотите освоить базу;
😶 уже работаете в IT, маркетинге или финансах и хотите быстрее разбираться в данных;
😶 хотите повысить ценность на рынке и прокачать харды, которые нужны всем аналитикам.
➡️ Зарегистрироваться на бесплатный SQL
📊 Simulative
Напоминаем: у нас есть бесплатный курс «Основы SQL» — отличный способ разобраться с базой и наконец подружиться с данными.
SQL — это навык, который сегодня нужен почти всем, кто хоть немного работает с цифрами. Без него не обойтись ни аналитикам, ни маркетологам, ни продактам: 87% вакансий в аналитике требуют знания SQL. А специалисты, которые умеют быстро извлекать и анализировать данные, зарабатывают в среднем на 30-50% больше.
На курсе вы:
Подойдёт, если вы:
Всё обучение — онлайн и бесплатно. Доступ открывается сразу после регистрации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤5👏4
Из каких сфер чаще всего приходят в ML-инженеры?
Привет! Кристина Желтова на связи ✨
За годы работы в области машинного обучения я успела увидеть большое количество людей, которые совершили карьерный переход и пришли в ML из смежных или совсем отдалённых областей, так что путь в машинное обучение бывает довольно непредсказуем.
Давайте разберём, откуда реально приходят будущие ML-инженеры, и почему одним переход дается легче, а другим приходится потрудиться.
Самый очевидный и наиболее успешный путь перехода — из аналитиков в ML-инженеры. У дата-аналитиков уже, как правило, есть опыт работы с данными, навыки SQL и python, понимание статистики и A/B-тестирования, а также самое ценное — аналитическое мышление.
Имея весь этот набор, остается доучить алгоритмы ML, базовый MLOps и домен-специфичное машинное обучение (если хочется попасть в какую-то экзотичную область).
Еще одна хорошая тропа перехода — из разработчиков или дата-инженеров в ML-инженеры. Подобные специалисты обычно обладают сильными инженерными навыками — умением писать «чистый» эффективный код, работать с Git, CI/CD, контейнеризацией, пайплайнами и прочими production-практиками. Разработчикам необходимо доучить, как минимум, статистику и алгоритмы ML, хотя также сложившаяся техническая база позволяет быстро освоить MLOps и перейти в эту профессию.
Более тяжело переход даётся специалистам с менее крепкой инженерно-технической или математической базой — например, маркетологи или продакт-менеджеры. Однако у каждого есть свои сильные стороны: например, у продактов есть понимание бизнеса, опыт работы с метриками, и это можно и нужно использовать! Главное — переосмыслить свой текущий опыт, переложив его на машинное обучение, и системно прокачивать недостающие навыки.
Комбинируя новые знания с прочным бэкграундом, соискатель создаёт свою уникальную ценность на рынке труда.
➡️ Зарегистрироваться на вебинар
📊 Simulative
Привет! Кристина Желтова на связи ✨
За годы работы в области машинного обучения я успела увидеть большое количество людей, которые совершили карьерный переход и пришли в ML из смежных или совсем отдалённых областей, так что путь в машинное обучение бывает довольно непредсказуем.
Давайте разберём, откуда реально приходят будущие ML-инженеры, и почему одним переход дается легче, а другим приходится потрудиться.
Самый очевидный и наиболее успешный путь перехода — из аналитиков в ML-инженеры. У дата-аналитиков уже, как правило, есть опыт работы с данными, навыки SQL и python, понимание статистики и A/B-тестирования, а также самое ценное — аналитическое мышление.
Имея весь этот набор, остается доучить алгоритмы ML, базовый MLOps и домен-специфичное машинное обучение (если хочется попасть в какую-то экзотичную область).
Еще одна хорошая тропа перехода — из разработчиков или дата-инженеров в ML-инженеры. Подобные специалисты обычно обладают сильными инженерными навыками — умением писать «чистый» эффективный код, работать с Git, CI/CD, контейнеризацией, пайплайнами и прочими production-практиками. Разработчикам необходимо доучить, как минимум, статистику и алгоритмы ML, хотя также сложившаяся техническая база позволяет быстро освоить MLOps и перейти в эту профессию.
Более тяжело переход даётся специалистам с менее крепкой инженерно-технической или математической базой — например, маркетологи или продакт-менеджеры. Однако у каждого есть свои сильные стороны: например, у продактов есть понимание бизнеса, опыт работы с метриками, и это можно и нужно использовать! Главное — переосмыслить свой текущий опыт, переложив его на машинное обучение, и системно прокачивать недостающие навыки.
Комбинируя новые знания с прочным бэкграундом, соискатель создаёт свою уникальную ценность на рынке труда.
⚡️ 15 октября на вебинаре соберём пошаговый план перехода в профессию ML-инженера. Я расскажу, какие навыки и технологии будет полезно освоить людям из других направлений, а также покажу, как перейти от теории к решению проблем бизнеса.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4 2
Мой путь в SQL: от SELECT * и боли до архитектуры
Привет! На связи Владимир Лунев, автор тренинга «Продвинутый SQL».
Многие спрашивают, как я начинал свой путь в SQL, и этот пост как раз об этом)
Изначально я не мечтал быть DBA или аналитиком. Познакомился с SQL случайно на первой работе, после окончания университета, нужно было вытаскивать данные из пары таблиц БД и делать отчёты в Excel. Знал только SELECT * FROM table — и думал, что это и есть вся база.
В первые месяцы считал себя крутым программистом, но идиллия закончилась, когда меня повысили в должности и дали новый функционал. Там простым SELECT уже было не обойтись.
И начался ад.
Срочные отчёты для руководства, дедлайны, нехватка знаний для быстрой выгрузки данных из БД, а ещё же надо было потом всё это обрабатывать в Excel. Тогда я сильно нервничал и буквально жил на работе. Писал запросы на 100 строк без нормальных JOIN (только подзапросы), не знал, что такое CTE, думал, что GROUP BY — это для красивой группировки, и прочие прелести начинающего специалиста.
Тут я понял, что нужно что-то менять, и плотно взялся за SQL. Причём учить что-то на работе получалось редко за исключением впитывания советов от более старших коллег, поэтому основное моё обучение происходило по вечерам дома.
БД и SQL для меня тогда выглядели огромным и сложным айсбергом знаний для каких-то очень гениальных людей, и пока я пытался всё это изучить, я совершил ряд ошибок в теории и практике, которые очевидны для меня сейчас:
➖ Учил синтаксис, а не логику. Зубрил CASE, WINDOW FUNCTIONS, но не понимал, как данные связаны. Сейчас я рисую ER-диаграммы даже для простых задач, связанных с отчётностью. Да, на это тратится какое-то время, но зато и я и коллеги понимают, как работает код.
➖ Боялся production. Думал, а вдруг сломаю? Потом понял — без боевых условий не научишься. Начал с малого — перед запуском запросов читал их explain-план.
➖ Думал, что красивый отчёт = хороший анализ. Составлял дашборды с кучей графиков, но не проверял, откуда берутся метрики. Однажды выяснилось, что уникальные пользователи считались по COUNT(user_id), а не COUNT(DISTINCT user_id). После решил — любую метрику сначала верифицирую на сырых данных, а потом уже визуализирую.
➖ Не задавал вопросы заказчику отчёта. Делал отчёт по ТЗ, но не уточнял, что за этим числом стоит. Выяснилось, что метрика «Активные пользователи» для маркетинга — это однодневные заходы, а для продукта 7-дневные.
➖ Хранил запросы в клиенте СУБД. Однажды потерял критически важный скрипт перед дедлайном. Теперь всё в Git, даже временные запросы. И даю файлам нормальные имена, пишу документацию.
Как принимал решения? На первых порах — по боли:
🟠 Если запрос выполнялся 10 минут — учил индексы и оптимизацию.
🟠 Если коллеги ругались на непонятные цифры — учил метрики.
🟠 Если не мог объяснить бизнесу, откуда берётся число — учил предметную область.
Дальше решал по принципу «максимальный рычаг» — что даст больше роста за единицу времени? Например, изучить оконные функции и читать execution plan — и таким образом сразу ускорю отчёты.
И напоследок. Мой путь — не линейный. Были проекты, где я ломал продакшн (да, такое было). Были месяцы, когда казалось: всё уже изучил. А потом приходил новый кейс — и снова ноль. Путь был сложным, и он продолжается до сих пор.
Главное — не переставать учиться.
💎 Записаться на продвинутый SQL до 17 октября
📊 Simulative
Привет! На связи Владимир Лунев, автор тренинга «Продвинутый SQL».
Многие спрашивают, как я начинал свой путь в SQL, и этот пост как раз об этом)
Изначально я не мечтал быть DBA или аналитиком. Познакомился с SQL случайно на первой работе, после окончания университета, нужно было вытаскивать данные из пары таблиц БД и делать отчёты в Excel. Знал только SELECT * FROM table — и думал, что это и есть вся база.
В первые месяцы считал себя крутым программистом, но идиллия закончилась, когда меня повысили в должности и дали новый функционал. Там простым SELECT уже было не обойтись.
И начался ад.
Срочные отчёты для руководства, дедлайны, нехватка знаний для быстрой выгрузки данных из БД, а ещё же надо было потом всё это обрабатывать в Excel. Тогда я сильно нервничал и буквально жил на работе. Писал запросы на 100 строк без нормальных JOIN (только подзапросы), не знал, что такое CTE, думал, что GROUP BY — это для красивой группировки, и прочие прелести начинающего специалиста.
Тут я понял, что нужно что-то менять, и плотно взялся за SQL. Причём учить что-то на работе получалось редко за исключением впитывания советов от более старших коллег, поэтому основное моё обучение происходило по вечерам дома.
БД и SQL для меня тогда выглядели огромным и сложным айсбергом знаний для каких-то очень гениальных людей, и пока я пытался всё это изучить, я совершил ряд ошибок в теории и практике, которые очевидны для меня сейчас:
Как принимал решения? На первых порах — по боли:
Дальше решал по принципу «максимальный рычаг» — что даст больше роста за единицу времени? Например, изучить оконные функции и читать execution plan — и таким образом сразу ускорю отчёты.
Главный совет, который я сам долго не слышал — не стремись знать всё. Стремись понимать, как устроено. Знать 50 функций бесполезно. Понимать, почему запрос медленный, как данные хранятся, когда обновляются, что происходит при транзакции — это даёт свободу.
И напоследок. Мой путь — не линейный. Были проекты, где я ломал продакшн (да, такое было). Были месяцы, когда казалось: всё уже изучил. А потом приходил новый кейс — и снова ноль. Путь был сложным, и он продолжается до сих пор.
Главное — не переставать учиться.
✅ Всё ещё жду вас на своём тренинге «Продвинутый SQL», где вы научитесь писать SQL, который работает быстро даже на больших объёмах данных. Вы прокачаетесь в системном мышлении и начнёте думать на языке данных: видеть связи, строить логику анализа и предлагать решения, которые экономят время всей команды.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤13 4
4 «подводных камня» на пути аналитика
Всем привет, на связи Александр Грудинин, Lead Data Analyst в компании AdTech Holding и ментор курса «Аналитик данных».
Как у начинающих аналитиков, так и у студентов я вижу одинаковые «подводные камни», о которые спотыкаются почти все в начале своего пути. Делюсь своими наблюдениями и что с ними делать:
✨ Эти сложности можно преодолеть на нашем курсе «Аналитик данных» — есть структурированная программа с реальными бизнес-кейсами и поддержка ментора. Врывайтесь в обучение со скидкой, которая действует до завтрашнего дня!
✅ Записаться на курс со скидкой 15%
📊 Simulative
Всем привет, на связи Александр Грудинин, Lead Data Analyst в компании AdTech Holding и ментор курса «Аналитик данных».
Как у начинающих аналитиков, так и у студентов я вижу одинаковые «подводные камни», о которые спотыкаются почти все в начале своего пути. Делюсь своими наблюдениями и что с ними делать:
1️⃣ Перестройка мышления
Самое сложное — начать видеть за метриками бизнес, а не просто числа в таблице.
Студент научился считать метрики, видит, что CR просел на 5%, но не может объяснить, что это значит для бизнеса, какие гипотезы проверить и что с этим делать. Именно этот переход от технического к бизнес-мышлению даётся далеко не сразу.
2️⃣ SQL и мышление таблицами
В жизни любого аналитика рано или поздно появляются JOIN’ы, и в чате появляется знакомое сообщение: «Я всё понял… пока не попробовал объединить таблицы».
И проблема тут не в синтаксисе, а в умении мысленно держать структуру данных — понимать, как строки соединяются, какие ключи пересекаются и почему количество строк вдруг увеличилось в два раза или появились дубли. Это то самое «табличное мышление», которое приходит только с практикой.
3️⃣ Понимание данных перед анализом
Часто студенты сразу набрасываются на данные, не разобравшись, как вообще они устроены: какие есть пограничные случаи (corner cases), пропуски, странные значения, какая логика формирования витрин данных и т. п.
Например, берут таблицу заказов, считают выручку — и получают очень красивую сумму. А потом оказывается, что в выборку попали и отменённые заказы. Аналитик должен уметь останавливаться и сначала понять данные, прежде чем их крутить.
4️⃣ Оптимальный код
Когда объём данных становится чуть больше, чем игрушечный, выясняется, что неоптимальный код — это не просто некрасиво, а больно.
Кто-то пишет подзапросы в подзапросах, и бывает, что до последнего не агрегируют данные или, делая аналитику за последние 30 дней, тянут данные на всю глубину таблицы. Потом всё это крутится минутами, а иногда и падает.
Именно здесь приходит понимание, зачем смотреть план выполнения запросов, для чего нужны оконные функции, индексы и как важен чистый, читаемый и оптимальный код.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥6 4
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥3 2
Data Engineer: почему эта профессия сегодня востребована как никогда
Привет! На связи Георгий Семенов, ментор курса «Инженер данных».
Рынок IT в последние пару лет переживает настоящий бум спроса на инженеров данных (DE) — специалистов по надёжному хранению и качественной и своевременной обработке данных. Особенно когда речь идет про big data.
Я работаю в этой индустрии уже больше 7 лет, в CTC, Wildberries, VK, Яндексе, и наблюдаю это всё своими глазами.
А вы можете просто посмотреть на зарплатный дашборд от Ромы Бунина. Невооруженным глазом видно, что распределение зарплат инженеров данных находится на одном уровне с ML/DS и значимо выше, чем у аналитиков. Это подтверждают и самые свежие данные Хабр Карьеры (раздел про зарплаты аналитиков).
Происходит так потому, что спрос на DE растёт быстрее предложения. Дошло до того, что бизнес идёт на хитрость, и в своём желании сэкономить начинает требовать от аналитиков решения инженерных задач. Это особенно остро ощущается в компаниях с незрелой дата-культурой.
Почему сейчас?
🟠 Бурный рост AI требует качественных данных и процессов.
🟠 Все, от бигтехов до кофеен, стремятся быть data-driven.
🟠 Чатбот-аналитики растут как грибы, но заменить DE сложнее.
Задумайтесь об этом, особенно если вы аналитик, но чувствуете, что вам интереснее решать технические задачи. DE — самый органичный выбор для вас.
Какие навыки обычно требуются в работе?
👑 Читать, писать и оптимизировать код на SQL или Python.
👑 Создавать ETL/ELT-процессы с помощью Airflow и Spark.
👑 Знать нюансы работы различных СУБД и платформ данных.
👑 Разбираться в моделях данных и архитектурах хранилищ.
➡️ Забронировать место со скидкой 25%
📊 Simulative
Привет! На связи Георгий Семенов, ментор курса «Инженер данных».
Рынок IT в последние пару лет переживает настоящий бум спроса на инженеров данных (DE) — специалистов по надёжному хранению и качественной и своевременной обработке данных. Особенно когда речь идет про big data.
Я работаю в этой индустрии уже больше 7 лет, в CTC, Wildberries, VK, Яндексе, и наблюдаю это всё своими глазами.
А вы можете просто посмотреть на зарплатный дашборд от Ромы Бунина. Невооруженным глазом видно, что распределение зарплат инженеров данных находится на одном уровне с ML/DS и значимо выше, чем у аналитиков. Это подтверждают и самые свежие данные Хабр Карьеры (раздел про зарплаты аналитиков).
Происходит так потому, что спрос на DE растёт быстрее предложения. Дошло до того, что бизнес идёт на хитрость, и в своём желании сэкономить начинает требовать от аналитиков решения инженерных задач. Это особенно остро ощущается в компаниях с незрелой дата-культурой.
Почему сейчас?
Задумайтесь об этом, особенно если вы аналитик, но чувствуете, что вам интереснее решать технические задачи. DE — самый органичный выбор для вас.
Какие навыки обычно требуются в работе?
Data Engineering — это ваш шанс на стабильную, высокооплачиваемую и перспективную карьеру в IT. Готовы сделать шаг в будущее? Тогда самое время действовать!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥4 3