NEW BOT Телеграм, страница

Simulative

Всем привет! На связи команда Simulative 👋

Мы починили все технические моменты и вебинар Что должен уметь хороший аналитик данных: взгляд тимлида из Яндекс eLama обязательно состоится сегодня, в 19:00 МСК! 🥳

🔥Регистрируйтесь, если ещё не успели!

Напоминаем адженду:
🔸 Разберём, как и для чего используются в реальных бизнес-задачах SQL, Python, Airflow;
🔸 Расскажем, какие хард- и софт-скиллы ждёт от своей команды тимлид;
🔸Узнаем, чем занимаются аналитики в eLama и как выглядит типичный рабочий день.

Спикер: Павел Беляев, тимлид аналитики Яндекс eLama и ментор курса «Аналитик данных».

До встречи на вебинаре 🧡

❤5🔥4🎉2

1.42K views10:50

Simulative

Привет! Это Павел Беляев, тимлид группы аналитиков в Яндекс eLama и ментор курса «Аналитик данных».

Продолжаю делиться лайфхаками SQL и сегодня принёс ещё шесть! В статье рассказал, как посичтать важный фин. показатель — ARPPU, сегментировать новых и старых пользователей, построить простейший отчет-воронку и еще несколько интересных приёмов.

😶

Читать статью

Сегодня на вебинаре как раз поговорим про SQL а ещё Python и Airflow — как и для чего используются в реальных бизнес-задачах эти инструменты.

Ещё поделюсь секретами рабочего дня группы аналитиков из Яндекс eLama и расскажу про свой подход к найму сотрудников в команду.

✨ Приходите, будет классно и полезно!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥4👍2

1.51K views14:04

Simulative

Всем привет! На связи Георгий Семенов, Chief Data Officer и ментор курса «Инженер Данных» 👋

На заре карьеры довелось мне участвовать в постройке маленького локального хранилища данных. Подняли Clickhouse, настроили ETL в Airflow. Всё круто. Но через пару месяцев пришлось пересобирать хранилище заново.

Как говорится, просчитался, но где?...

Во-первых, при выборе технологии (Error #1). Хайпанули. Clickhouse нам не очень подходил. С одной стороны, мы теряли ACID, функциональность внешних ключей и контролировать согласованность данных приходилось самостоятельно. С другой стороны, мы особо не использовали основное преимущество OLAP Clickhouse — колоночное хранение, т.к. объемы данных ожидались небольшие, а для них подойдет и OLTP с индексами.

Во-вторых, при проектировании модели данных (Error #2). Мы очень плохо понимали предметную область. Каждая таблица загружалась нами как независимая, без какой-либо нормализации и осознания, что с этими данными будут дальше делать. В данных постоянно встречалась несогласованность. Аналитики пытались справляться с этими проблемами на своем уровне, тогда как лучшая практика — приводить это в порядок на уровне хранилища.

В-третьих, при написании кода пайплайнов (Error #3). Было много самоповторов. Но это можно было отрефакторить, не пересобирая хранилище, если бы не первые 2 ошибки.

Но в этой бочке дегтя была одна ложка мёда — мы сохраняли сырые данные!
Бережно складывали их неподалёку, в файловой системе (не object storage, но хоть так).

В итоге, мы лучше погрузились в предметную область, определили взаимосвязи между таблицами, немного подкрутили модель данных, переписали код, и собрали новое хранилище на PostgreSQL.

❗️О том как не допускать элементарных ошибок, мы поговорим уже сегодня, 11 сентября, в 19:00, на бесплатном вебинаре «Проектируем хранилища данных с нуля».

➡️

Регистрация на вебинар

P.S. Кстати, вот вам вопрос: а чем, собственно, нам помогло наличие сырых данных, если можно напрямую мигрировать со старой модели на новую? И зачем вообще собирать сырьё, тратить на него место на диске?

Жду ваши ответы в комментариях)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🔥3

1.52K views08:36

Simulative

⚡️Друзья, уже через пару часов, в 19:00 МСК, ждём всех на бесплатном вебинаре, где расскажем, как проектировать хранилища данных с нуля!

😶

Регистрация на вебинар

Как обычно напоминаем, что запись и материалы будут доступны тем, кто зарегистрируется. Но очень будем рады видеть вас в лайве, чтобы задать вопросы Георгию!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥2

1.55K views13:45

Simulative

This media is not supported in your browser

VIEW IN TELEGRAM

0:56

1.51K views13:45

❤8🔥3

Simulative

Привет! Сегодня снова на связи Павел Беляев, ментор курса «Аналитик данных» и автор канала Тимлидское об аналитике 👋

Полагаю, для любого желающего стать айтишником-аналитиком крайне актуален вопрос:

На что смотрят работодатели в резюме кандидатов?

Меня о таком, бывает, спрашивают.

За всех работодателей не отвечу, но расскажу, на что смотрю лично я, когда подбираю нового члена своей команды в Яндекс eLama.

Итак, что для меня важно (в порядке убывания приоритета):

1. Знание SQL
Это наш основной инструмент, его кандидату следует знать «на пятёрочку». Поэтому я пытаюсь понять, какой был опыт работы с ним у соискателя.

Это может быть даже и учебный опыт — в том числе, SQL-тренажёры. Я пытаюсь прикинуть, какие задачи решал кандидат, какой сложности и величины запросы использовал.

2. Жизненный опыт
Часто слышу опасения вроде: «Мне уже поздно в IT, там приоритет молодым». Я лично зачастую отдаю приоритет кандидатам постарше — у них много жизненного опыта, а ещё мне кажется, что они лучше понимают заказчиков, более ответственны и последовательны. А это иногда даже важнее, чем знать некоторые технологии, которым можно обучиться в процессе.

3. Опыт с Python
Это второй по значимости инструмент для нас. Используется для автоматизации процессов обработки данных, а также для разработки пользовательских сервисов и ещё для задач прогнозирования.

Так что rocket science в резюме не ищу, но строчка о прохождении курса по Python или об участии в «боевых» проектах на нём необходима.

В Яндексе будет, как минимум, два технических собеседования (помимо «менеджерского») с лайф-кодингом для проверки навыков SQL и Python, но задачи там несложные, особых библиотек знать не надо. Важнее умение составить в голове алгоритм решения, чтобы затем облечь его в код.

4. Любой релевантный опыт работы с аналитикой
Системы веб-аналитики (Google Analytics, Метрика и т.д.), Airflow, BI-системы, разные СУБД и т.д.
Опять же, учебный опыт засчитывается, но желательно, чтобы был пройден какой-нибудь серьёзный курс с теорией, практикой и комплексным подходом.

Когда нужно просмотреть десятки резюме, нужны чёткие критерии отбора — внятные подтверждения того, что человек готов сознательно и целенаправлено вкладываться в свое развитие.

5. Краткая подача материала
Я не читаю резюме, я их сканирую по диагонали, выискивая ответы на главные вопросы: какой был у человека опыт, отвечают ли его хард- и софт- скиллы моим требованиям?

Плюсик в карму кандидатам, которые уважают время и глаза тех, кто будет читать их резюме, и ёмко вносят лишь самое главное о себе, без лишних подробностей. Эти подробности можно будет обговорить на собеседовании.

Подытожим в виде рекомендаций для желающих войти в IT:

* Учите и практикуйте SQL и Python
* Желательно, в составе комплексного курса по аналитике
* Цените свой опыт взаимодействия с людьми, а также свою ответственность и самостоятельность
* Будьте кратки

Кстати, курс «Аналитик данных» от Simulative мне понравился именно комплексностью и приближенностью к реальным бизнес-задачам, а программа довольно полно отвечает моим хард-требованиям к кандидату.

А ещё сегодня последний день действуют ранние цены на курс: до -25%! Успейте присоединиться и жду вас на занятиях в качестве ментора 🔥

😶

Узнать больше об обучении и забронировать скидку

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤6👍6

1.5K views14:10

Simulative

Привет! Это команда Simulative 👋

У нас суперская новость для всех, кто раздумывал о прокачке скиллов в ML.

В сентябре стартует новый поток курса «ML-Инженер» с сопровождением ментора! 🔥

Встречайте, ментор потока — Кристина Желтова, директор по разработке моделей в Газпромбанке — одном из ведущих российских банков.

Несколько фактов о Кристине:

1️⃣Кристина уже более 5 лет в области машинного обучения и Data Science. В настоящее время активно развивает аналитические решения и ML-продукты на сеньорных и руководящих позициях.

2️⃣Имеет богатый опыт в области классического машинного обучения: реализовывала проекты по оптимальному размещению АТМ и торговых точек с использованием геопространственной аналитики, разрабатывала систему кредитного скоринга с нейросетевыми моделями, а также решения для модерации контента, построения RAG-пайплайнов и систем матчинга текстов с помощью NLP и LLM моделей.

3️⃣Кристина — преподаватель курсов по машинному обучению, глубокому обучению и анализу естественного языка в ведущих российских вузах: ИТМО, УрФУ и ЧелГУ.

4️⃣Выпускница магистратуры по искусственному интеллекту ИТМО × Napoleon IT, где также выступает ментором и экспертом образовательных программ.

😶

Узнать подробнее о курсе и оставить заявку

✨ А до 17 сентября на обучение действуют самые ранние цены ✨

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6👍4

1.61K views08:02

Simulative

This media is not supported in your browser

VIEW IN TELEGRAM

0:48

1.46K views08:03

❤8🔥8

Simulative

⚡️ТОП навыков ML-инженера на примере реальной бизнес-задачи

Предсказать отток клиентов — одна из самых распространенных и актуальных задач для любого бизнеса. На примере этой задачи можно рассмотреть все этапы работы ML-инженера: данные, признаки, модель, метрики и выводы для бизнеса.

😶Чтобы увидеть полный цикл решения реальной задачи и понять, какие навыки нужны ML-инженеру в работе, приходите 16 сентября на практико-ориентированный вебинар от Кристины Желтовой — директора по разработке моделей в Газпромбанке.

В ходе вебинара мы на примере задачи предсказания оттока клиентов разберём:

🟠Актуальность предсказания оттока клиентов для бизнеса
🟠Как работать с «сырыми» данными и подготовить их для обучения модели
🟠Как выбрать, построить и обучить базовую модель в Google Colab
🟠Как проверить, качество работы модели: разбор метрик и ошибок
🟠Какие ключевые навыки складываются в профессию ML-инженера.

❗️Встречаемся 16 сентября в 19:00 МСК

*️⃣Обязательно ждем вас в лайве — сможете напрямую задать свои вопросы Кристине Желтовой и забрать с собой пример файла в Google Colab, к которому сможете вернуться в любое время для практики!

➡️

Регистрация на вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🔥7👍2

1.6K views13:05

Simulative

4 ключевых навыка ML-инженера в 2025 году

Уже много лет машинное обучение развивается и приносит пользу компаниям, и наметились очевидные тренды — нейросети становятся больше и умнее, а инструментов для работы становится столько, что и за всю жизнь не изучишь. При этом работодатели всё чаще ждут от кандидатов не только знания ML-алгоритмов, но и умения внедрять модели в реальный бизнес.

Ментор курса «ML-инженер» Кристина Желтова рассказала, какие навыки сегодня делают ML-инженера по-настоящему востребованным:

🟠

Техническая база

Фундаментальные знания — наше всё, без них точно далеко не уедешь. Сюда входит понимание основной математики ML — линейная алгебра, методы оптимизации, статистика и теория вероятностей.

Технический стек может быть разнообразным и сильно зависит от выбранной специализации — в каждой области есть свои часто используемые технологии и фреймворки, но самое основное пригодится почти всегда: Python, SQL, scikit-learn.

🟠

Работа с данными

Не зря говорят, что 80% работы приходится именно на данные — это залог успеха всего проекта. Поэтому умение строить data-пайплайны и грамотно трансформировать сырые данные в чистые выборки для обучения просто необходимо, иначе есть риск получить очень слабую и глупую модель.

🟠

Продакшн и MLOps

Жизнь модели не заканчивается после обучения. Дальше её ждёт внедрение, мониторинг и, возможно, регулярные запуски переобучения. Далеко не все ML-специалисты собственноручно занимаются внедрением — часто это отводится специалистам в роли MLOps, однако стоит понимать, какие у модели есть «особенности поведения» в проде. Например, насколько она «тяжелая» — как много времени ей требуется на подготовку прогноза, и как это соотносится с техническими требованиями — есть ли в процессе столько времени, чтобы ждать, пока модель «подумает»?

🟠

Soft skills

Неожиданно, но факт! Один из самых важных навыков — умение работать на стыке и говорить на одном языке как с дата-сайентистами, так и с продактами, менеджерами, заказчиками.

Навык объяснять сложное простыми словами даже неспециалисту недооценен и может очень сильно ускорить продвижение по карьерной лестнице, особенно по вертикальному треку.

Получается, в 2025 году ML-инженер — своеобразный мост между исследованием и бизнесом. Он понимает, как превратить идею в работающий сервис, встраивает модели в реальные продукты и отвечает за то, чтобы они приносили ценность.

♾

Уже завтра на вебинаре в 19:00 МСК разберём, как ML-инженер применяет свои навыки в реальной работе с данными. Регистрируйтесь и знакомьтесь с профессией под руководством опытного ментора!

➡️

Регистрация на вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍6🔥1👏1

1.49K views11:41

Simulative

Зачем прогнозировать отток клиентов и как это сделать

Привет! Снова на связи Кристина Желтова, ментор курса «ML-инженер» и спикер сегодняшнего вебинара про топ навыков в профессии.

Для любого бизнеса удержать существующего клиентa дешевле, чем искать нового. Представьте, что вы заранее узнаёте, кто из ваших покупателей собирается уйти, и успеваете предложить им выгодное предложение.

Именно так бизнес экономит деньги и увеличивает доход, хотя на кону не только деньги! Зная, когда и почему люди теряют интерес к сервису, компания получает рычаг для изменений — возможность улучшить клиентский сервис и нарастить лояльность пользователей.

Кажется, что решение такой задачи лежит на поверхности — давайте соберём данные об активности клиентов и использовании услуг сервиса и посмотрим, чем одна группа отличается от другой. Но обычно данных о клиентах и их поведении настолько много, что для глубокого анализа ресурсов уже не хватает. Тогда за дело берутся модели машинного обучения.

Упрощённый пайплайн выглядит примерно так:

🟠

Готовим данные — превращаем сырую информацию в понятные моделям признаки. Например, как давно был последний визит, сколько товаров в корзине, характер активности на сайте.

🟠

Экспериментируем с моделями — выбираем ту «звёздочку», которая лучше всех отработает на наших данных.

🟠

Проверяем качество и улучшаем — смотрим, насколько точно предсказания модели совпадают с реальностью, и учимся её корректировать, чтобы прогнозы были ещё точнее.

🟠

Внедряем в работу — настраиваем запуск модели с нужной периодичностью, чтобы каждый раз у маркетологов были актуальные списки потенциального оттока и они успели подготовить персональные предложения.

Как работает этот пайплайн на реальном проекте, узнаем уже сегодня в 19:00 МСК на вебинаре. Приходите, чтобы погрузиться в профессию и понять, какие навыки будут полезны для обучения базовой модели.

➡️

Зарегистрироваться на вебинар

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🔥4

1.3K viewsedited 11:33

Simulative

Привет, аналитики! Меня зовут Владимир Лунев. Более 5 лет я работаю в IT как бизнес- и системный аналитик.

Я строил процессы и архитектуру реляционных баз данных для аналитиков, чтобы они могли быстро получить качественные данные, а не заниматься ручной обработкой исходной информации. Большую часть карьеры провёл в ритейле, где ежедневно принимаются решения на основе больших потоков данных: продаж, запасов, логистики, прогнозов спроса.

Я часто сталкивался с задачами, где точность и скорость обработки данных имели критическое значение: приходилось быстро выявлять скрытые ошибки, обеспечивать корректность бизнес-отчётов и автоматизировать расчёты ключевых показателей.

Несколько кейсов из моей работы:

👑 Оптимизировал отчёт и сократил время его выполнения с 3 часов, до 30 минут, не переписывая бизнес-логику, а разобрав EXPLAIN и исправив ошибки SQL-запросов.
👑 Построил систему контроля качества данных на основании проверочных скриптов, которая автоматически ловила дубли, NULL-ловушки и логические противоречия до попадания информации в отчёты.
👑 Разработал автоматизированный процесс агрегации и расчёта KPI для сети магазинов, позволивший ежедневно получать корректные метрики без ошибок.

Я буду ведущим SQL-буткемпа — практикума, где вы получите реальные навыки, которые работают в боевых проектах бизнеса. В рамках буткемпа мы разберём:

➖

Оптимизацию запросов в SQL — разбор EXPLAIN, выявление «тормозящих» мест, исправление лишних подзапросов и «фантомных» строк для ускорения критичных бизнес-отчётов и выгрузок.

➖

Контроль качества данных — научимся писать кастомные скрипты проверок данных для точных и надёжных данных.

➖

Прогнозы и тренды — построение когорт, скользящих метрик, lag/lead-анализ и простые линейные прогнозы для точного планирования.

➖

Сценарный анализ «что если» — моделирование альтернатив через параметризацию, temp-таблицы и CTE, автоматизация расчётов для оценки влияния изменений на ключевые показатели.

➖

Агрегацию данных и полезные бизнес-метрики — расчёт growth, hitrate, долей, YoY, контроль перекосов и проведение A/B-анализов для оценки эффективности решений.

➖

Рекурсию и последовательности — поработаем с деревьями parent-child, обходом графов, кластеризацией и сегментацией пользовательских действий для глубокого анализа процессов.

Формат: много практики на кейсах и задачах из IT-проектов и немного сопутствующей теории.

Буткемп будет полезен аналитикам, data-engineers, backend-разработчикам, а также всем, кто работает с массивами данных, строит отчёты и хочет улучшить навыки владения SQL.

Если вы хотите писать SQL-запросы так, чтобы данные реально работали на вас, а не наоборот — этот буткемп для вас!

➡️

Зарегистрироваться на буткемп по ранней цене

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤9🔥6👏1😁1

2.02K views13:30

Simulative

Как онбордятся дата-аналитики в Яндекс eLama

Приветствую любителей аналитики! С вами Павел Беляев, ментор курса «Аналитик данных». Расскажу, как у нас погружается в работу новый человек и какой выработался подход у меня как тимлида / руководителя команды.

Новичку предстоит освоить немало всего:
➖Рабочие процессы и регламенты;
➖Наш инструментарий;
➖Наши данные;
➖Персонажи (заказчики, исполнители, смежники).

Соль моего подхода не нова: неофит получает небольшую вводную, а затем познаёт все премудрости на «боевых» задачах. Если изначально кандидат соответствует требованиям, то у него есть всё для планомерного впитывания необходимой информации.

Вводная — это встреча со мной как тимлидом, на которой я рассказываю ещё раз о задачах, стеке, экторах — людях и отделах, причастных к работе с данными — а также выдаю список ссылок на документацию. Этих ссылок довольно много, поэтому изучить и понять всё сразу нереально. Но это и не требуется в первые дни. Пока нужно только сориентироваться, где что есть, и осознать общие контуры ситуации, в которую вы вписались.

В списке ссылок новичок найдёт сведения об инструментах и процессах:
🟠 Корпоративные сервисы — структура компании, данные о сотрудниках, календарь, диск, почта и т. д.;
🟠 Раздел Data Office в корпоративном wiki-справочнике;
🟠 Регламент работы дежурного, или SLA — Service Level Agreement, о котором еще расскажу;
🟠 Наш стандарт оформления кода SQL;
🟠 Бизнес-глоссарий — используемые термины и метрики;
🟠 Описание рабочих процессов: планирование, движение задач, жизненный цикл витрин данных.

А также техническую информацию о данных:
🟠 Архитектура аналитического хранилища и ETL-механизмов;
🟠 Основные таблицы (витрины) и их представления;
🟠 Модель данных;
🟠 Механизм обновления данных и метаданных;
🟠 Используемые технические справочники и т. д.

Новому сотруднику назначается бадди (buddy), то есть куратор, более опытный член команды, который далее помогает ему с оргвопросами, поясняет рабочие моменты и т. д.

Раньше я курировал новенького сам, но теперь у нас ребята достаточно компетентные, сами справляются. Вообще коллектив у нас дружный и отзывчивый, поэтому новичок никогда не остаётся один на один с проблемой. Он может задать вопрос в чат команды и ему быстро подскажут, что к чему, так что назначение бадди — в известной мере, формальность.

Начиная со второй недели неофит участвует в планировании спринта, получает боевые задачи. Сначала простенькие, позже посложнее. А с третьей недели он уже дежурит, принимая текущие заявки от заказчиков. (Во многих компаниях у аналитиков имеется институт дежурства, когда один человек в течение некоторого периода отвечает за прием и обработку входящих обращений, чтобы остальные не отвлекались от проектных дел.)

Я как руководитель созваниваюсь с новоиспечённым аналитиком на часок раз в неделю или в две, чтобы обсудить его прогресс, снизить стресс и обменяться обратной связью.

Постепенно процессы, данные, инструменты становятся привычными и через несколько месяцев новый дата-аналитик уже уверенно решает задачи, обходясь без помощи коллег. А через год он уже и сам может стать куратором.

В общем, если человек обучаемый, коммуникабельный и имеет достаточную техническую базу, он втянется в работу.

Что же до необходимых основ аналитики, на мой взгляд, они неплохо изложены в курсе «Дата-аналитик». Если вы серьёзно настроены влиться в нашу отрасль или прокачать свои знания, не пожалейте ресурса, пройдите курс.

♾ Кстати, до 19 сентября действует скидка -15%, так что успевайте зарегистрироваться и прокачать себя в профессии аналитика.

🧡

Получить предложение по низкой цене

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5🔥5☃1

1.99K views08:04

Simulative

Вебинар вчера был

🔥

Спасибо всем, кто пришёл, и особенно — кто задавал вопросы! Ментор Кристина передаёт спасибо за положительные отзывы и ждёт вас на курсе 🧡

Запись вебинара доступна всем, кто зарегистрировался в боте.

А для тех, кто ещё не успел забронировать себе место на курсе «ML-инженер», есть время забежать в уходящий поезд и получить предложение по низкой цене — скидка 25% до конца дня 🔥

🖱

Успеть и забронировать место

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥4

1.3K views12:05

Simulative

Давайте попрактикуемся в поиске ошибок данных?

Представьте, вы аналитик в межзвёздной логистической компании «SQL Bootcamp». Система зафиксировала подозрительные перевозки: некоторые грузы ведут себя странно, и нужно проверить данные, чтобы не терять грузы и не искажать отчёты. Все данные по логистике база данных пишет в таблицу shipments.

Потенциальные аномалии данных, которые нужно обнаружить в рамках бизнес-логики компании:
➖ Груз без указанной станции отправления или прибытия;
➖ Рейс, где груз вылетает и прибывает на ту же станцию;
➖ Отрицательные значения веса или расхода топлива;

Таблица shipments:

id     dep_station  arr_station  weight   fuel
7001   Alpha-7      NULL         5.0      300
7002   Beta-9       Beta-9       2.1      450
7003   Gamma-5      Delta-1      8.3      -20
7004   Epsilon-3    Zeta-2      -1.5      100

Описание атрибутов:
id — уникальный номер перевозки
dep_station — станция отправления
arr_station — станция прибытия
weight — вес груза
fuel — расход топлива

Какой запрос найдёт все потенциальные аномалии данных в таблице shipments?

A)

SELECT * FROM shipments
WHERE dep_station IS NULL
   OR arr_station IS NULL
   OR weight < 0
   OR fuel < 0;

SELECT * FROM shipments
WHERE (dep_station IS NULL OR arr_station IS NULL)
   OR (dep_station = arr_station)
   OR (weight < 0 OR fuel < 0);

SELECT * FROM shipments
WHERE (weight < 0 OR fuel < 0)
   OR (COALESCE(dep_station,'') = '' OR COALESCE(arr_station,'') = '');

SELECT * FROM shipments
WHERE dep_station = arr_station
   OR dep_station IS NULL
   OR arr_station IS NULL;

Пишите в комментариях свою версию, завтра опубликуем правильный вариант

❤️

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤8👍2

1.43K views14:05

Simulative

Какой вариант верный?

Anonymous Poll

82%

👍6❤4🔥3😱1

200 voters1.3K views14:10

Simulative

Давайте попрактикуемся в поиске ошибок данных? Представьте, вы аналитик в межзвёздной логистической компании «SQL Bootcamp». Система зафиксировала подозрительные перевозки: некоторые грузы ведут себя странно, и нужно проверить данные, чтобы не терять грузы…

Разберём решение задачи с поиском ошибок данных таблицы shipments в БД межзвёздной логистической компании «SQL Bootcamp»

Напомним потенциальные аномалии данных, которые нужно было обнаружить, в рамках бизнес-логики компании:
➖ Груз без указанной станции отправления или прибытия
➖ Рейс, где груз вылетает и прибывает на ту же станцию
➖ Отрицательные значения веса или расхода топлива

Верный ответ:

B
```
SELECT * FROM shipments
WHERE (dep_station IS NULL OR arr_station IS NULL)
OR (dep_station = arr_station)
OR (weight < 0 OR fuel < 0);
```

➖

Проверяет пустые станции отправления/прибытия

➖

Проверяет одинаковые станции отправления и прибытия

➖

Проверяет отрицательный вес и расход топлива

Разберём остальные ответы:

A)
```
SELECT * FROM shipments
WHERE dep_station IS NULL
OR arr_station IS NULL
OR weight < 0
OR fuel < 0;
```
Не проверяет рейсы, где станция отправления = станция прибытия.

C)
```
SELECT * FROM shipments
WHERE (weight < 0 OR fuel < 0)
OR (COALESCE(dep_station,'') = '' OR COALESCE(arr_station,'') = '');
```
Проверяет только пустые станции и отрицательные значения, не проверяет рейсы с одинаковыми станциями.

D)
```
SELECT * FROM shipments
WHERE dep_station = arr_station
OR dep_station IS NULL
OR arr_station IS NULL;
```
Проверяет пустые станции и одинаковые станции, но не отрицательный вес и расход топлива.

В аналитике данных важно ловить не только явные ошибки вроде NULL или отрицательных чисел, но и тонкие логические аномалии, которые могут скрываться за нормальными на первый взгляд значениями.

В нашем примере был рейс с одинаковой станцией отправления и прибытия — вроде бы данные есть, но по бизнес-логике это ошибка. Правильный SQL-запрос на проверку данных как детектор аномалий: он выявляет все подозрительные случаи сразу, экономит время и помогает не пропустить важные нюансы.

Подробнее про проверки мы поговорим в рамках SQL-буткемпа — регистрируйтесь, до конца сентября держим ранние цены!

🔔

Зарегистрироваться на тренинг по SQL

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥5❤4

1.39K views09:05

Simulative

Катастрофа в проде: модель идеально работает в ноутбуке, но ломается после выкатки в продакшн

Привет! На связи Кристина Желтова, ментор курса «ML-инженер».

На практике нередкая ситуация, когда ML-специалист или даже целая команда празднуют победу — их модель показывает на локальных экспериментах отличное качество, а значит, задача решена!

Модель проходит код-ревью, готовится к раскатке в прод и пилотированию или A/B-тестированию, и вот час настал — её выпускают в настоящую жизнь, в production. Но через какое-то время разгневанные заказчики приходят и сетуют на сошедшую с ума модель, которая одобрила кредиты всем подряд или рекомендовала потратить весь бюджет маркетинга на удержание клиентов, которые и так не собирались уходить.

❓ Какие могут быть причины такого поведения модели, и как узнать о существовании проблемы не от заказчиков, а во время экспериментов?

1️⃣ Temporal Leakage: неправильная разбивка данных, упорядоченных по времени

Проблема: команда использовала обычный train_test_split с shuffle=True на упорядоченных данных с временными метками.

Что произошло: модель училась на данных от января до декабря, а тестировалась на случайно перемешанных данных из этого же периода. Фактически, модель использовала «будущее» для предсказания «прошлого».

Правильный подход: использовать специальную валидацию для временных данных — TrainTestSplit.

2️⃣ Feature Leakage: признаки из «будущего»

Проблема: в датасете могли быть признаки, которые содержали информацию из будущего относительно момента предсказания. Например, параметр customer_lifetime_value, рассчитанный на транзакциях после целевой даты предсказания.

Правильный подход: проверять, что все признаки, агрегации и статистики считаются только на данных до целевой даты предсказания.

3️⃣ Target Leakage: утечка информации из целевой переменной

Проблема: для моделирования использовали признаки, напрямую связанные с целевой переменной или вычисляемые из неё.

Правильный подход: все признаки должны быть собраны или вычислены только из данных, доступных до момента, когда модель делает прогноз. Также стоит отделять создание признаков от целевой переменной во времени.

Кстати, сегодня последний день, когда можно записаться на курс-симулятор «ML-инженер» по низкой цене. Регистрируйтесь и создавайте эффективные модели машинного обучения под руководством опытного ментора-меня 😉

➡️

Записаться на курс со скидкой 15%

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤55

1.38K views09:05

Simulative

С какими данными работает аналитик

Приветствую любителей аналитики! С вами Павел Беляев, ментор курса «Аналитик данных». Сегодня поговорим о том, с какими данными и из каких источников приходится работать дата-аналитику.

Чем крупнее компания, тем больше у неё данных. Конечно, дело не только в величине, но и в «цифровой зрелости» — готовности компании собирать и использовать данные.
Чем выше интерес руководства к управлению на основе данных, тем больше оно стремится собрать их из разных источников.

Что же за источники обычно используют компании, для каких целей и как они интегрируются в конвейер данных?

1️⃣ CRM-системы

Что это: инструменты сбора, обработки и отображения информации о клиентах и взаимодействии с ними.

Метод сбора данных: чаще всего веб-интерфейс и свой API, через который можно отправить запрос в систему и получить ответ. Большие CRM могут дорабатываться под особенности бизнеса, также может допиливаться и API.

Данные
➖ Контакты и прочие данные клиентов;
➖ Данные о сделках, взаимодействиях и прочих процессах работы с клиентами;
➖ Новые лиды;
➖ Данные о сотрудниках, работающих с клиентами;
➖ Источники лидов;
➖ Другие сведения, которые стекаются в CRM.

Примеры: Битрикс24, amoCRM, Мегаплан.

2️⃣ Cистемы веб-аналитики

Что это: комплекс инструментов для сбора, измерения, анализа и интерпретации данных о посетителях веб-ресурсов.

Метод сбора данных: использование API, но не все системы отдают всё полностью.
Например, Google Analytics 4 не отдаёт полные сырые данные о хитах по API. Эта опция доступна только при прямой интеграции с Google BigQuery, остальным придётся довольствоваться лишь агрегированными данными.

Другой вариант — своими силами собирать нужные события, но это, скорее всего, потребует ресурсов разработчика.

Данные
➖ Хиты (события, просмотры страниц);
➖ Визиты/сессии (источники трафика, длительность, данные о приложении-клиенте пользователя и т. д.).

Примеры: Google Analytics, Яндекс Метрика, Amplitude.

3️⃣ Базы данных бизнес-приложений

Что это: практически любые цифровые продукты и сервисы имеют свою базу данных, а то и десятки для нормального функционирования.

Данные
Всё, что генерирует и хранит приложение:
— Учётные записи пользователей, их финансовые транзакции и баланс;
— Перечни услуг, тарифов, расписания событий и т. д.;
— Статусы заказов юзеров, состояние их работы с сервисом — например, подключенные аккаунты в системах автоматизации рекламы.

Метод сбора
Данные из «своих» СУБД собираются через стандартные методы подключения, например, из Python-скриптов (например, библиотека psycopg2 для работы с PostgreSQL) или же с помощью специализированных инструментов (например, оператор PostgresOperator для Airflow).

Примеры: PostgreSQL, MySQL, Microsoft SQL Server, Oracle Database.

4️⃣ Электронные таблицы

Что это: простое решение для внесения в аналитическое хранилище данных с ручного ввода либо из источников, сбор из которых не поддаётся недорогой автоматизации.

Данные: любые табличные данные.

Метод сбора: популярные облачные решения имеют свои API и Python-библиотеки. Для csv и xlsx-файлов в Python также есть функции загрузки в скрипт (например, в Pandas-датафрейм) и заливки в аналитическое хранилище.

Примеры: Google Sheets, Яндекс Таблицы, файлы Excel, файлы csv.

Все виды данных, а в особенности, как с ними работать, разбираем на курсе «Аналитик данных». Сегодня последний день по ранней цене!

⚡️

Успеть и записаться со скидкой 15%

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤65

1.4K views13:05

Simulative

⚡️

Вебинар: первичный анализ и очистка данных с помощью Python

Данные в аналитике зачастую требуют предобработки и очистки: пропуски, некорректные значения или типы данных. Если не проверить и не почистить такие данные, выводы в отчётах будут неточными, а решения — ошибочными.

На вебинаре Павел Беляев, тимлид аналитики в eLama, автор канала «Тимлидское об аналитике» и ментор курса «Аналитик данных», покажет, как быстро проверить и визуализировать данные в Python.

В ходе вебинара мы на примере данных сервиса по продаже подержанных авто разберём:
➖ Зачем и как проверять качество данных перед анализом;
➖ Как находить выбросы и «поломанные» значения в датасете;
➖ Какие приёмы Python помогают делать агрегацию по категориальным признакам;
➖ Как визуализировать данные и находить закономерности;
➖ Как даже новичок может собрать базовый пайплайн очистки и анализа.

❗️

Встречаемся 23 сентября в 19:00 МСК.

♾ Обязательно приходите на эфир — разберем must-have библиотеки для дата-аналитика: pandas для работы с табличными данными, matplotlib и seaborn для визуального анализа!

➡️

Регистрация на вебинар

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤65

1.45K viewsedited 09:05

Simulative

Узнайте, почему ваши SQL-запросы тормозят

🤖

Медленные SQL-запросы могут стоить бизнесу миллионов: отчёты считаются часами, решения принимаются с задержкой, а ошибки в данных подрывают доверие к аналитике.

На вебинаре Владимир Лунев, бизнес- и системный аналитик с 5-летним опытом работы в ритейле и IT, разберёт 7 реальных кейсов оптимизации SQL-запросов, которые помогали бизнесу принимать быстрые и точные решения.

В ходе вебинара разберём:
🟠 Как понять, что запрос тормозит, и чем это грозит бизнесу;
🟠 Как читать план выполнения (EXPLAIN, EXPLAIN ANALYZE) и находить ошибки;
🟠 Типовые причины медленных запросов и как их исправлять;
🟠 7 реальных кейсов из практики: «было → стало» с разбором кода.

❗️

Встречаемся 24 сентября в 19:00 МСК.

🧡 Обязательно ждём вас в лайве — вы сможете напрямую задать свои вопросы Владимиру Луневу и получить ценный опыт оптимизации SQL-запросов!

➡️

Зарегистрироваться на вебинар

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤65

2.82K views09:05

About

Blog

Apps

Platform