NEW BOT Телеграм, страница

Simulative

Очень любим читать ваши отзывы о курсах 🧡

Студент симулятора «Аналитик данных» Артём смог устроиться на стажировку в Т-Банк в том числе благодаря знаниям из курса.

Читайте в карточках его отзыв и вдохновляйтесь)

⚡️

А если вы уже вдохновились пройти обучение на курсе «Аналитик данных», то вы ещё успеваете записаться на следующий поток, который стартует 24 октября!

📊

Simulative #отзыв

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥53👍1

1.26K views09:05

Simulative

Как делать понятные визуализации в Python: принципы, инструменты и практика

Одна из актуальных задач аналитика данных — грамотно визуализировать данные и доносить выводы до бизнеса. Хорошая визуализация помогает быстро понять, что происходит в данных, и решить одну из основных задач анализа — помочь бизнесу принять решение.

На вебинаре разберём, как делать такие визуализации в Python. Вместе с Александром Грудининым, Lead Data Analyst в AdTech Holding, вы познакомитесь с ключевыми принципами визуализации и попробуете ключевые библиотеки на бизнес-кейсах.

Что узнаете на вебинаре:
➡️ Когда аналитикам стоит использовать Python для визуализации, а когда хватит Excel или BI-систем;
➡️ Основные принципы хорошей визуализации: подписи, цвета, легенды, масштаб;
➡️ Как выбрать тип графика под задачу и данные;
➡️ Ключевые библиотеки Python для визуализации — pandas, matplotlib, seaborn, plotly;
➡️ Примеры визуализаций из реальных бизнес-кейсов.

❗️

Встречаемся 21 октября в 19:00 МСК.

💬 Подключайтесь в прямой эфир, чтобы разобраться в визуализации данных и попробовать всё на практике!

➡️

Зарегистрироваться на вебинар

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤44👍1

1.26K views09:05

Simulative

5 ошибок новичков на пути в ML-инженеры

Привет! На связи Кристина Желтова, ментор курса «ML-инженер».

ML-инженеры в начале своего профессионального пути часто сталкиваются с одними и теми же ловушками. Зная их заранее, вы сможете выделиться из массы кандидатов и сэкономить время на прокачку.

1️⃣ Избыточная вера в сложные алгоритмы и пренебрежение простыми бейзлайнами

У начинающих специалистов периодически возникает ощущение, что чем сложнее модель, тем лучше результат. Часто так и бывает, но нередки случаи, когда на практике простая модель обгоняет тяжелые ансамбли и нейросети, или набор правил и эвристик в узкой задаче превосходит по качеству методы ML в целом.

Общий вывод — наращивайте сложность постепенно, не пренебрегайте построением простых крепких базовых решений.

2️⃣ Недостаточное погружение в правила выбор метрик качества

Использование только точности (accuracy) может ввести в заблуждение в задачах с дисбалансом классов или разной стоимостью ошибок. В каждой задаче, будь то регрессия или классификация, необходимо понимать основные метрики и уметь их выбирать.

3️⃣ Переобучение и ошибки в схеме валидации

Отсутствие отдельной валидационной и тестовой выборок, пренебрежение схемами валидации, утечки данных и неверный порядок применения трансформаций приводят к чрезмерно оптимистичным оценкам качества и просадкам производительности в проде. Всегда выбирайте схему валидации осознанно и с оглядкой на сценарий использования.

4️⃣ Отсутствие планирования экспериментов

Без системного подхода к работе с гипотезами, моделями, гиперпараметрами, а также без логирования и трекинга экспериментов проекты очень быстро превращаются в хаос. Чтобы структурировать свою работу, можно начать с такого инструмента, как MLflow, и понемногу внедрять его в свою разработку.

5️⃣ Слишком узкий выбор стека

Ограничивать себя одной библиотекой, пусть даже это scikit-learn, точно не стоит — необходимо периодически расширять свой арсенал, пробовать новое. Чтобы процесс не был слишком хаотичным, можно сверяться со стеком в понравившихся вам вакансиях и направленно изучать нужные инструменты.

☝🏻 Избегайте этих ошибок, и ваш путь к профессии ML-инженера станет более гладким и результативным!

➡️

Забронировать место на курсе «ML-инженер» со скидкой 15%

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤42👍1

1.48K views11:14

Simulative

После этой статьи (надеемся) вы разберётесь, чем отличаются разные алгоритмы машинного обучения:

https://simulative.ru/blog/algorithms-ml

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤42👍1

1.44K views09:05

Simulative

Вебинар: как дата-инженеру проектировать хорошие ETL/ELT-процессы

ETL/ELT-процессы (они же пайплайны) — основа любой дата-инженерной системы. Именно пайплайны собирают и превращают сырые данные в структурированную информацию, на которую опираются аналитики и бизнес. Но как спроектировать процесс правильно, чтобы данные поставлялись стабильно, а пайплайны не ломались при каждом изменении на стороне источника?

На вебинаре c Георгием Семеновым разберём ключевые подходы к построению пайплайнов — разберем батч и стриминг, сравним ETL и ELT, а также посмотрим, как работают инструменты оркестрации вроде Airflow и Dagster. Поговорим о важных инженерных деталях — партицировании, бэкфиллах, контрактах и тестах — и покажем, из чего складываются надёжные дата-процессы в крупных компаниях.

Что вы узнаете:
➖ Как устроен путь данных — от источников до аналитических витрин;
➖ Чем отличаются стриминг и батч, ETL и ELT, и когда какой применять;
➖ Какие инструменты помогают строить пайплайны — разберём Airflow и Dagster;
➖ Какие нюансы важно учитывать: партицирование, бэкфиллы, контракты, тесты;
➖ Как спроектировать надёжный и легко поддерживаемый пайплайн.

❗️

Встречаемся 22 октября в 19:00 МСК.

💬 Подключайтесь к эфиру, чтобы задать Георгию вопросы про архитектуру данных, ETL/ELT и тонкости построения стабильных пайплайнов!

➡️

Зарегистрироваться на вебинар

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤32

1.51K views12:05

Simulative

Бесплатный курс «Основы Python» — старт для тех, кто хочет разобраться с языком с нуля

🐍

Python — инструмент, который помогает не только программистам, но и аналитикам, маркетологам и менеджерам автоматизировать рутину и быстрее принимать решения на основе данных.

Если вы пока только копите советы из интернета, самое время перейти к системному изучению. На курсе вы:

🟠 Начнёте с простого и шаг за шагом дойдёте до практических задач.
🟠 Научитесь автоматизировать типовые процессы — от проверки отчётов до выгрузки данных.
🟠 Получите поддержку и сможете задать вопросы в чате.
🟠 А ещё получите доступ к дополнительным материалам и реферальной программе!

🖱 Курс уже прошли более 1500 человек — присоединяйтесь и сделайте Python своим инструментом роста!

🔗

Зарегистрироваться бесплатно

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥42

1.55K views09:06

Simulative

📊

Почему графики не работают (и как это исправить)

Привет, аналитики! Ментор потока «Аналитик данных» Александр Грудинин на связи 😉

Иногда смотришь на дашборд и понимаешь, что ничего не понимаешь 😄 Или тратишь часы на создание визуализации, которую в итоге никто не смог интерпретировать…

Проблема не в данных. Проблема в том, что график не соответствует задаче.

Представьте: вам нужно показать руководству динамику продаж за год. Вы делаете круговую диаграмму из 12 месяцев. В итоге никто не видит тренд, все путаются в долях, а главный инсайт теряется в радужной палитре.

Правильный выбор графика важен, чтобы данные рассказали свою историю. Например, вот с чем сталкиваются начинающие (и не только) аналитики:

🟠 Нужно показать, как менялись показатели во времени, а выбирается bar chart вместо линейного графика. Тренд размывается.

🟠 Сравниваете пять категорий и используете pie chart. Глаз не различает доли точно, особенно если их больше трёх.

🟠 Хотите показать взаимосвязь двух переменных и теряетесь между таблицей и столбцами, хотя scatter plot справился бы за секунды.

🟠 Нужно понять распределение данных, а опять строится обычный bar chart, который скрывает всю картину. Гистограмма или boxplot (ящик с усами) дали бы гораздо больше информации.

Каждая задача требует своего инструмента. Динамика — одно, сравнение — другое, структура данных — третье. И если вы выбираете не тот тип графика, ваша визуализация не просто выглядит плохо — она вводит в заблуждение.

На ближайшем вебинаре, который я проведу 21 октября, разберём:

➡️ Когда аналитикам стоит использовать Python для визуализации, а когда хватит Excel или BI-систем;
➡️ Основные принципы хорошей визуализации: подписи, цвета, легенды, масштаб;
➡️ Как выбрать тип графика под задачу и данные;
➡️ Ключевые библиотеки Python для визуализации — pandas, matplotlib, seaborn, plotly;
➡️ Примеры визуализаций из реальных бизнес-кейсов.

Вы научитесь выбирать тип графика осознанно — под конкретные данные и задачу. Без гаданий, без перебора вариантов.

Регистрируйтесь и узнайте, как превратить данные в понятную историю, которую увидит каждый! 👇

♾

Зарегистрироваться на вебинар

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤77🔥5

1.35K views09:05

Simulative

Проблемы снэпшотов: не все данные одинаково полезны

Приветствую! Георгий Семенов, ментор потока «Инженер данных», на связи 👋

Ты — Data Engineer. Перед тобой стоит задача: ежедневно собирать из внешнего сервиса статистику по рекламным кампаниям твоих клиентов (дальше будем называть РК).

У сервиса есть два метода API:

🟠

/adv_list возвращает список всех РК и их статусы на момент запроса (aka снэпшот). На вход принимает ID клиента.

🟠

/adv_stat возвращает статистику по РК за указанный день. На вход принимает ID РК и дату.

Однако у клиентов много РК в статусе «неактивный», по которым не бывает статистики за день. А нам не хочется делать лишние запросы к API — есть лимиты, которые сильно замедляют процесс. Для иллюстрации: у одного клиента 150 активных РК и 1750 неактивных. Активные мы грузим за 5 минут, а все вместе — час. Поэтому хотим запрашивать статистику только по активным РК.

Так ты и делаешь — сперва грузишь список, из него берёшь только активные РК и по ним сразу статистику за день. Но есть нюанс.

Проблема №1. Если РК будет активной в течение дня, но станет неактивной, когда мы придём за данными, то мы не получим статистику по этой РК за этот день, хотя она есть.

Проблема №2. Допустим, что-то пошло не так и загрузка сломалась, а мы заметили это только через несколько дней. Естественно, мы хотим залить провалы за эти дни, чтобы статистика была полной. Но /adv_list вернёт только текущие статусы.

Благо, в твоём случае нашлось неплохое решение. Метод /adv_list возвращает не только текущий статус, но и таймстэмп последнего изменения РК. Поэтому для загрузки статистики за пропущенные даты ты можешь отобрать РК по следующему условию:

статус = "активный" или последнее изменение >= {дата_провала}

Иначе тебе пришлось бы выбирать между сильным снижением скорости импорта и потенциальной частичной потерей данных.

Вывод: импорта снэпшотов стоит избегать, особенно если от них зависят другие расчёты. Снэпшоты теряют информацию о промежуточных изменениях, и на практике чаще всего занимают значительно больше места, чем логи изменений тех же объектов.
Но если у тебя нет влияния на источник, приходится работать с тем, что дают. И в таком случае заранее тщательно продумывай зависимости, чтобы не было проблем.

🤔 Если вы не до конца поняли пост, или наоборот, поняли, и хотите узнать ещё про разные виды датасетов, партицирование, бэкфиллинг и другие приколы процессов обработки данных — жду вас завтра, 22 октября, на моём бесплатном вебинаре.

P. S. Можно усложнить решение задачи, чтобы ещё сильнее уменьшить потенциальное количество запросов к /adv_stat. Пишите свои варианты в комментариях.

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥33👍1

1.5K views12:05

Simulative

This media is not supported in your browser

VIEW IN TELEGRAM

0:51

1.47K views13:55

🔥4❤33

Simulative

Друзья, уже через пару часов, в 19:00 МСК, ждём всех на вебинаре с Александром Грудининым 🧡

Тема: Как делать понятные визуализации в Python: принципы, инструменты и практика

➡️

Зарегистрироваться

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤33🔥2

1.37K views13:55

Simulative

Сегодня последний день ранних цен на курс «Инженер данных»

Инженер данных — это человек, который достаёт данные откуда угодно и превращает их в основу аналитики и решений бизнеса.

На курсе вас ждёт:

😶

Практика на реальных бизнес-кейсах — вы освоите инструменты PostgreSQL, Python, Clickhouse, Metabase и многое другое;

😶

Поддержка ментора на каждом этапе: разборы, QA-сессии, советы из практики;

😶

Портфолио пет-проектов, которые можно показывать работодателям;

😶

Доступ к платформе навсегда — учитесь в удобном темпе;

😶

Карьерная помощь: резюме, консультации и подготовка к собеседованиям.

Через несколько месяцев вы сможете уверенно решать задачи, которые ценят работодатели!

‼️ До конца дня действует скидка 25% на курс. Если вы хотите войти в IT или прокачать свои скиллы в работе с данными, сейчас идеальный момент!

➡️

Забронировать место со скидкой 25%

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤33🔥2

1.56K viewsedited 07:05

Simulative

This media is not supported in your browser

VIEW IN TELEGRAM

0:57

1.45K views14:17

🔥7❤32

Simulative

Георгий Семенов уже готовится вещать про ETL/ELT-процессы на вебинаре!

😶Ещё успеваете зарегистрироваться: https://clck.ru/3Psd7B

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥75❤4

1.32K viewsedited 14:20

Simulative

Всем привет! На связи ментор Кристина Желтова 👋

Представьте, что вы работаете ML-инженером, и вам нужно построить модель, которая поможет банку решить важный вопрос: кому из заёмщиков стоит выдать кредит, а кому отказать?

Такая задача называется кредитным скорингом. Обычно у нас есть исторические данные о клиентах — возраст, доход, семейное положение, количество текущих и прошлых кредитов, а также просрочек по ним и еще много-много данных. На основании всего этого модель должна предсказать вероятность выхода клиента в дефолт — неуплаты кредита.

Вопросы для вас:
1️⃣ Вопрос попроще: какой тип модели подходит для задачи: классификация или регрессия? Почему?
2️⃣ Вопрос посложнее: какие метрики будете использовать, чтобы оценить качество предсказаний?
3️⃣ Максимально широкий вопрос: какие возможные проблемы могут возникнуть при построении такой модели?

Пишите свои ответы и идеи в комментариях 👇🏻

Завтра опубликуем подробный разбор по этому кейсу с обсуждением популярных ответов, объяснением и рекомендациями.

Маленькая рекламная вставка: сегодня последний день, когда можно забронировать скидку 15% на поток «ML-инженера» со мной в качестве ментора ✨

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤21

1.36K views09:05

Simulative

Чек-лист: подходит ли тебе аналитика данных

Привет! Ментор Александр Грудинин снова с вами 😉

Думаешь стать аналитиком данных, но не уверен, твоё ли это? Пройди честный чек-лист — если узнаёшь себя в большинстве пунктов, welcome to the club 👇

✅

Ты постоянно спрашиваешь «Почему?»
Видишь график продаж, цифры в отчёте или новость — и первая мысль: «А почему так произошло? Что на это повлияло?» Если привычка докапываться до причин — это про тебя, аналитика будет в удовольствие.

✅

Ты внимателен к деталям
Замечаешь несоответствия, мелкие недоработки, обращаешь внимание на то, что другие не видят. В аналитике один пропущенный ноль или неправильный фильтр могут развернуть выводы на 180°. Мы много и долго изучаем данные/логи, тестируем разные сценарии и расчёты, ищем закономерности и инсайты. Нужно быть готовым к кропотливой, порой рутинной работе.

✅

Умеешь структурировать хаос
Груда разрозненной информации не пугает, а вызывает желание разложить всё по полочкам? Аналитик — это тот, кто превращает беспорядок в понятные таблицы, графики и инсайты, а разрозненные мысли — в чёткое ТЗ.

✅

Готов много общаться с людьми
Для кого-то это будет сюрпризом, но аналитик — это не затворник с ноутбуком. Нужно выяснять задачи у менеджеров, объяснять результаты, защищать свои выводы, рассказывать про ход исследования и т. п. Если боишься общения, встреч и презентаций, будет сложно.

✅

Не боишься брать ответственность
За свой код, данные, выводы и рекомендации. Если твой дашборд показал неверные цифры — это твоя ответственность разобраться и исправить. Если по твоему анализу приняли решение — ты стоишь за своими словами. Звучит серьёзно? Да. Но это и делает работу значимой — твои выводы реально влияют на бизнес. Главное — быть честным, проверять данные и не бояться признавать ошибки, если они случились.

✅

Не пугают цифры и таблицы
Не обязательно быть математическим гением, но базовая статистика, работа с Excel/SQL и понимание метрик — must have для успешного аналитика.

✅

Готов постоянно учиться
Новые инструменты (не говоря про стандартный набор SQL + Python + BI), библиотеки, методы анализа появляются каждый месяц. SQL вчера, Python сегодня, а завтра какой-нибудь свежий фреймворк. Если мысль «опять учить что-то новое» вызывает тоску, а не интерес — будет тяжело.

Совпало больше половины? Поздравляю, первый шаг на пути в аналитику сделан! Кстати, сегодня стартую со своим потоком, так что буду рад, если вы присоединитесь к нам 😉

💎

Записаться на поток аналитика данных

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤33

1.16K views09:05

Теперь можно и отдохнуть 🫠

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14😁10❤6

1.14K views13:05

Simulative

📱

Создаем свой мини-ChatGPT: модель, которая отвечает по вашим данным

ChatGPT хорошо справляется с разными вопросами, но если нужно учитывать много информации или работать со своими данными, его возможности могут не подойти для таких задач.

На вебинаре с директором по разработке моделей в Газпромбанке Кристиной Желтовой вы научите модель работать с вашими материалами — документами, статьями или базой знаний.

Мы соберём простую RAG-систему (Retrieval-Augmented Generation). Она помогает модели не выдумывать ответы, а искать нужную информацию в источниках и объяснять её своими словами.

На вебинаре расскажем:
🟠 Как работает GPT и почему она иногда ошибается;
🟠 Что такое RAG и как он помогает модели понимать ваши данные;
🟠 Как собрать простую систему, которая отвечает на вопросы по базе знаний;
🟠 Где применяют такие решения — в поддержке, контенте и анализе документов;
🟠 Почему многие специалисты из других сфер переходят в машинное обучение и каковы перспективы этой профессии.

❗️

Встречаемся 29 октября в 19:00 МСК.

💬 Подключайтесь к прямому эфиру, чтобы задать вопросы опытному специалисту в ML и получить практический кейс RAG-системы в ваше портфолио.

🎁 А всем зарегистрировавшимся на вебинар пришлём краткий курс для начинающих «Машинное обучение без сложностей»!

➡️

Зарегистрироваться на вебинар

📊

Simulative #вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤64

1.36K viewsedited 15:47

Simulative

Всем привет! На связи ментор Кристина Желтова 👋 Представьте, что вы работаете ML-инженером, и вам нужно построить модель, которая поможет банку решить важный вопрос: кому из заёмщиков стоит выдать кредит, а кому отказать? Такая задача называется кредитным…

Привет! Отвечаем на вопросы по кредитному скорингу — саму задачу публиковали вот тут:

1️⃣

Какой тип модели подходит для задачи: классификация или регрессия? Почему?

Для задачи кредитного скоринга обычно используют бинарную классификацию, так как модель должна предсказать, выйдет ли заёмщик в дефолт (1 — дефолт, 0 — надёжный клиент). Более того, построив вероятностную модель бинарной классификации, которая на выходе выдает вероятность дефолта, можно принимать решение о выдаче кредита или отказе по заранее выбранному порогу, балансируя риски.

2️⃣

Какие метрики используете, чтобы оценить качество предсказаний?

В скоринговых задачах важно учитывать не только общий процент правильных ответов (accuracy), но и ранжирующую способность моделей, и баланс между разными типами ошибок. Поэтому наиболее часто используемые метрики:

🟠

ROC-AUC (Area Under Curve) — интегральная оценка качества ранжирования. Она нечувствительна к изменению порога классификации.

🟠

Коэффициент Джини (Gini) — производная от ROC-AUC. Часто используется регуляторами и банками, характеризует «отделимость» надёжных клиентов от рискованных.
🟠 Также ценно посмотреть на Precision и Recall для «дефолтов» и матрицу ошибок, которая позволяет увидеть баланс между ошибками в обе стороны (false positive / false negative).

В целом же выбор метрики и интерпретация её значений зависит от бизнес-задачи. Иногда важнее снижение рисков (например, минимизация false negative-ошибок), иногда — рост объёма кредитов (максимизация recall).

3️⃣

Какие возможные проблемы могут возникнуть при построении такой модели?

Точно стоит учесть типовые моменты, такие как:

🟠

Несбалансированность классов. Всё-таки больше людей возвращают кредиты, чем выходят в дефолт, поэтому в распределении целевой переменной есть дисбаланс и требуется использование специальных техник сэмплирования или корректировка весов классов на уровне модели / функции потерь.

🟠

Недостаточная интерпретируемость. Для банковских моделей важна способность объяснить решение, а сложные ML-методы (например, нейросети) в этом плане уступают более простым моделям.

🟠

Некорректное разделение обучающей и тестовой выборок или ошибки в построении схемы валидации могут приводить к завышению метрик. Например, если в данных есть признак «сумма задолженности через 6 месяцев после выдачи кредита», то модель использует его для предсказания и покажет хорошее качество на валидации, однако в боевых условиях таких данных по заемщику не будет — это проблема неправильного разделения выборки.

🟠

Изменчивость данных. Поведение клиентов и распределение их характеристик может меняться во времени, а, значит, модель быстро устаревает и деградирует.

🟠

Правовые и этические ограничения. Иногда так бывает, что не все данные из имеющихся можно использовать по этическим причинам или юридическим ограничениям.

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤53

1.46K views07:05

Simulative

Отлично, вы собрали все необходимые данные, чтобы сделать свой первый дашборд!

Нажмите на график, чтобы добавить его в Metabase → 📊

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥53

1.39K views09:05

Simulative

Гайд по JOIN в SQL: виды и примеры

Когда вы начинаете работать с данными, быстро становится ясно: нужная информация часто разбросана по разным таблицам. В Excel это решается с помощью ВПР, а в SQL — через оператор JOIN.

➡️

JOIN (от англ. join — «соединять») позволяет объединять таблицы и собирать данные в одну выборку. Это один из самых частых операторов, без которого не обходится ни один аналитик.

Из нашего гайда вы узнаете:
🟠 Какие бывают типы JOIN и чем они отличаются;
🟠 Как писать запросы с JOIN под разные задачи;
🟠 Как оптимизировать JOIN, чтобы запросы выполнялись быстрее.

Материал поможет вам уверенно работать с объединением таблиц и лучше понимать, как устроены связи в данных. Сохраняйте гайд, чтобы не искать примеры в спешке перед дедлайном 😉

✅

Получить материал

📊

Simulative

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13🔥55👍2

1.53K views09:05

About

Blog

Apps

Platform