Георгий Семенов уже готовится вещать про ETL/ELT-процессы на вебинаре!
😶 Ещё успеваете зарегистрироваться: https://clck.ru/3Psd7B
📊 Simulative
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7 5❤4
Всем привет! На связи ментор Кристина Желтова 👋
Такая задача называется кредитным скорингом. Обычно у нас есть исторические данные о клиентах — возраст, доход, семейное положение, количество текущих и прошлых кредитов, а также просрочек по ним и еще много-много данных. На основании всего этого модель должна предсказать вероятность выхода клиента в дефолт — неуплаты кредита.
Пишите свои ответы и идеи в комментариях 👇🏻
Завтра опубликуем подробный разбор по этому кейсу с обсуждением популярных ответов, объяснением и рекомендациями.
📊 Simulative
Представьте, что вы работаете ML-инженером, и вам нужно построить модель, которая поможет банку решить важный вопрос: кому из заёмщиков стоит выдать кредит, а кому отказать?
Такая задача называется кредитным скорингом. Обычно у нас есть исторические данные о клиентах — возраст, доход, семейное положение, количество текущих и прошлых кредитов, а также просрочек по ним и еще много-много данных. На основании всего этого модель должна предсказать вероятность выхода клиента в дефолт — неуплаты кредита.
Вопросы для вас:1️⃣ Вопрос попроще: какой тип модели подходит для задачи: классификация или регрессия? Почему?2️⃣ Вопрос посложнее: какие метрики будете использовать, чтобы оценить качество предсказаний?3️⃣ Максимально широкий вопрос: какие возможные проблемы могут возникнуть при построении такой модели?
Пишите свои ответы и идеи в комментариях 👇🏻
Завтра опубликуем подробный разбор по этому кейсу с обсуждением популярных ответов, объяснением и рекомендациями.
Маленькая рекламная вставка: сегодня последний день, когда можно забронировать скидку 15% на поток «ML-инженера» со мной в качестве ментора✨
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2 1
Чек-лист: подходит ли тебе аналитика данных
Привет! Ментор Александр Грудинин снова с вами 😉
Думаешь стать аналитиком данных, но не уверен, твоё ли это? Пройди честный чек-лист — если узнаёшь себя в большинстве пунктов, welcome to the club 👇
✅ Ты постоянно спрашиваешь «Почему?»
Видишь график продаж, цифры в отчёте или новость — и первая мысль: «А почему так произошло? Что на это повлияло?» Если привычка докапываться до причин — это про тебя, аналитика будет в удовольствие.
✅ Ты внимателен к деталям
Замечаешь несоответствия, мелкие недоработки, обращаешь внимание на то, что другие не видят. В аналитике один пропущенный ноль или неправильный фильтр могут развернуть выводы на 180°. Мы много и долго изучаем данные/логи, тестируем разные сценарии и расчёты, ищем закономерности и инсайты. Нужно быть готовым к кропотливой, порой рутинной работе.
✅ Умеешь структурировать хаос
Груда разрозненной информации не пугает, а вызывает желание разложить всё по полочкам? Аналитик — это тот, кто превращает беспорядок в понятные таблицы, графики и инсайты, а разрозненные мысли — в чёткое ТЗ.
✅ Готов много общаться с людьми
Для кого-то это будет сюрпризом, но аналитик — это не затворник с ноутбуком. Нужно выяснять задачи у менеджеров, объяснять результаты, защищать свои выводы, рассказывать про ход исследования и т. п. Если боишься общения, встреч и презентаций, будет сложно.
✅ Не боишься брать ответственность
За свой код, данные, выводы и рекомендации. Если твой дашборд показал неверные цифры — это твоя ответственность разобраться и исправить. Если по твоему анализу приняли решение — ты стоишь за своими словами. Звучит серьёзно? Да. Но это и делает работу значимой — твои выводы реально влияют на бизнес. Главное — быть честным, проверять данные и не бояться признавать ошибки, если они случились.
✅ Не пугают цифры и таблицы
Не обязательно быть математическим гением, но базовая статистика, работа с Excel/SQL и понимание метрик — must have для успешного аналитика.
✅ Готов постоянно учиться
Новые инструменты (не говоря про стандартный набор SQL + Python + BI), библиотеки, методы анализа появляются каждый месяц. SQL вчера, Python сегодня, а завтра какой-нибудь свежий фреймворк. Если мысль «опять учить что-то новое» вызывает тоску, а не интерес — будет тяжело.
💎 Записаться на поток аналитика данных
📊 Simulative
Привет! Ментор Александр Грудинин снова с вами 😉
Думаешь стать аналитиком данных, но не уверен, твоё ли это? Пройди честный чек-лист — если узнаёшь себя в большинстве пунктов, welcome to the club 👇
Видишь график продаж, цифры в отчёте или новость — и первая мысль: «А почему так произошло? Что на это повлияло?» Если привычка докапываться до причин — это про тебя, аналитика будет в удовольствие.
Замечаешь несоответствия, мелкие недоработки, обращаешь внимание на то, что другие не видят. В аналитике один пропущенный ноль или неправильный фильтр могут развернуть выводы на 180°. Мы много и долго изучаем данные/логи, тестируем разные сценарии и расчёты, ищем закономерности и инсайты. Нужно быть готовым к кропотливой, порой рутинной работе.
Груда разрозненной информации не пугает, а вызывает желание разложить всё по полочкам? Аналитик — это тот, кто превращает беспорядок в понятные таблицы, графики и инсайты, а разрозненные мысли — в чёткое ТЗ.
Для кого-то это будет сюрпризом, но аналитик — это не затворник с ноутбуком. Нужно выяснять задачи у менеджеров, объяснять результаты, защищать свои выводы, рассказывать про ход исследования и т. п. Если боишься общения, встреч и презентаций, будет сложно.
За свой код, данные, выводы и рекомендации. Если твой дашборд показал неверные цифры — это твоя ответственность разобраться и исправить. Если по твоему анализу приняли решение — ты стоишь за своими словами. Звучит серьёзно? Да. Но это и делает работу значимой — твои выводы реально влияют на бизнес. Главное — быть честным, проверять данные и не бояться признавать ошибки, если они случились.
Не обязательно быть математическим гением, но базовая статистика, работа с Excel/SQL и понимание метрик — must have для успешного аналитика.
Новые инструменты (не говоря про стандартный набор SQL + Python + BI), библиотеки, методы анализа появляются каждый месяц. SQL вчера, Python сегодня, а завтра какой-нибудь свежий фреймворк. Если мысль «опять учить что-то новое» вызывает тоску, а не интерес — будет тяжело.
Совпало больше половины? Поздравляю, первый шаг на пути в аналитику сделан! Кстати, сегодня стартую со своим потоком, так что буду рад, если вы присоединитесь к нам 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3 3
ChatGPT хорошо справляется с разными вопросами, но если нужно учитывать много информации или работать со своими данными, его возможности могут не подойти для таких задач.
На вебинаре с директором по разработке моделей в Газпромбанке Кристиной Желтовой вы научите модель работать с вашими материалами — документами, статьями или базой знаний.
Мы соберём простую RAG-систему (Retrieval-Augmented Generation). Она помогает модели не выдумывать ответы, а искать нужную информацию в источниках и объяснять её своими словами.
На вебинаре расскажем:
🎁 А всем зарегистрировавшимся на вебинар пришлём краткий курс для начинающих «Машинное обучение без сложностей»!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤6 4
Simulative
Всем привет! На связи ментор Кристина Желтова 👋 Представьте, что вы работаете ML-инженером, и вам нужно построить модель, которая поможет банку решить важный вопрос: кому из заёмщиков стоит выдать кредит, а кому отказать? Такая задача называется кредитным…
Привет! Отвечаем на вопросы по кредитному скорингу — саму задачу публиковали вот тут:
1️⃣ Какой тип модели подходит для задачи: классификация или регрессия? Почему?
Для задачи кредитного скоринга обычно используют бинарную классификацию, так как модель должна предсказать, выйдет ли заёмщик в дефолт (1 — дефолт, 0 — надёжный клиент). Более того, построив вероятностную модель бинарной классификации, которая на выходе выдает вероятность дефолта, можно принимать решение о выдаче кредита или отказе по заранее выбранному порогу, балансируя риски.
2️⃣ Какие метрики используете, чтобы оценить качество предсказаний?
В скоринговых задачах важно учитывать не только общий процент правильных ответов (accuracy), но и ранжирующую способность моделей, и баланс между разными типами ошибок. Поэтому наиболее часто используемые метрики:
🟠 ROC-AUC (Area Under Curve) — интегральная оценка качества ранжирования. Она нечувствительна к изменению порога классификации.
🟠 Коэффициент Джини (Gini) — производная от ROC-AUC. Часто используется регуляторами и банками, характеризует «отделимость» надёжных клиентов от рискованных.
🟠 Также ценно посмотреть на Precision и Recall для «дефолтов» и матрицу ошибок, которая позволяет увидеть баланс между ошибками в обе стороны (false positive / false negative).
В целом же выбор метрики и интерпретация её значений зависит от бизнес-задачи. Иногда важнее снижение рисков (например, минимизация false negative-ошибок), иногда — рост объёма кредитов (максимизация recall).
3️⃣ Какие возможные проблемы могут возникнуть при построении такой модели?
Точно стоит учесть типовые моменты, такие как:
🟠 Несбалансированность классов. Всё-таки больше людей возвращают кредиты, чем выходят в дефолт, поэтому в распределении целевой переменной есть дисбаланс и требуется использование специальных техник сэмплирования или корректировка весов классов на уровне модели / функции потерь.
🟠 Недостаточная интерпретируемость. Для банковских моделей важна способность объяснить решение, а сложные ML-методы (например, нейросети) в этом плане уступают более простым моделям.
🟠 Некорректное разделение обучающей и тестовой выборок или ошибки в построении схемы валидации могут приводить к завышению метрик. Например, если в данных есть признак «сумма задолженности через 6 месяцев после выдачи кредита», то модель использует его для предсказания и покажет хорошее качество на валидации, однако в боевых условиях таких данных по заемщику не будет — это проблема неправильного разделения выборки.
🟠 Изменчивость данных. Поведение клиентов и распределение их характеристик может меняться во времени, а, значит, модель быстро устаревает и деградирует.
🟠 Правовые и этические ограничения. Иногда так бывает, что не все данные из имеющихся можно использовать по этическим причинам или юридическим ограничениям.
📊 Simulative
Для задачи кредитного скоринга обычно используют бинарную классификацию, так как модель должна предсказать, выйдет ли заёмщик в дефолт (1 — дефолт, 0 — надёжный клиент). Более того, построив вероятностную модель бинарной классификации, которая на выходе выдает вероятность дефолта, можно принимать решение о выдаче кредита или отказе по заранее выбранному порогу, балансируя риски.
В скоринговых задачах важно учитывать не только общий процент правильных ответов (accuracy), но и ранжирующую способность моделей, и баланс между разными типами ошибок. Поэтому наиболее часто используемые метрики:
В целом же выбор метрики и интерпретация её значений зависит от бизнес-задачи. Иногда важнее снижение рисков (например, минимизация false negative-ошибок), иногда — рост объёма кредитов (максимизация recall).
Точно стоит учесть типовые моменты, такие как:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5 3
Отлично, вы собрали все необходимые данные, чтобы сделать свой первый дашборд!
Нажмите на график, чтобы добавить его в Metabase → 📊
📊 Simulative
Нажмите на график, чтобы добавить его в Metabase → 📊
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5 3
Гайд по JOIN в SQL: виды и примеры
Когда вы начинаете работать с данными, быстро становится ясно: нужная информация часто разбросана по разным таблицам. В Excel это решается с помощью ВПР, а в SQL — через оператор JOIN.
➡️ JOIN (от англ. join — «соединять») позволяет объединять таблицы и собирать данные в одну выборку. Это один из самых частых операторов, без которого не обходится ни один аналитик.
Из нашего гайда вы узнаете:
🟠 Какие бывают типы JOIN и чем они отличаются;
🟠 Как писать запросы с JOIN под разные задачи;
🟠 Как оптимизировать JOIN, чтобы запросы выполнялись быстрее.
Материал поможет вам уверенно работать с объединением таблиц и лучше понимать, как устроены связи в данных. Сохраняйте гайд, чтобы не искать примеры в спешке перед дедлайном😉
✅ Получить материал
📊 Simulative
Когда вы начинаете работать с данными, быстро становится ясно: нужная информация часто разбросана по разным таблицам. В Excel это решается с помощью ВПР, а в SQL — через оператор JOIN.
Из нашего гайда вы узнаете:
Материал поможет вам уверенно работать с объединением таблиц и лучше понимать, как устроены связи в данных. Сохраняйте гайд, чтобы не искать примеры в спешке перед дедлайном
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥5 5👍2
Почему нейросети галлюцинируют, и как RAG всё исправит
Привет! Ментор курса ML-инженер Кристина Желтова на связи 👋
Почему так происходит?
Представьте, что GPT — это человек, который прочитал и запомнил миллиарды текстов, но его обучение закончилось в апреле 2025 года. И теперь у него в голове только этот срез знаний о мире. Кроме того, у модели может не быть специфичных знаний лично о вас или внутренних процессах вашей компании, но ответ-то генерировать надо, и тогда GPT начинает придумывать ответы, которые лишь похожи на правду.
💡 При этом есть способ, позволяющий наполнить модель актуальной информацией прямо во время генерации ответа — RAG (Retrieval-Augmented Generation). Общий принцип довольно прост: в момент обработки пользовательского запроса ищем релевантную для составления информацию в базе знаний (например, документы компании, инструкции, отчеты и т. п.), найденную информацию передаём в контекст модели вместе с запросом, и тогда модель отвечает, уже имея на руках корректные данные.
RAG помогает в автоматизации клиентской поддержки, при создании корпоративных чат-ботов, составлении аналитики и отчетности по внутренним данным, но так ли всё просто, как звучит, и как построить такой пайплайн? Обсудим это на вебинаре уже завтра, 29 октября👇
➡️ Зарегистрироваться на вебинар
📊 Simulative
Привет! Ментор курса ML-инженер Кристина Желтова на связи 👋
Вы когда-нибудь замечали, что GPT-модели иногда могут очень уверенно нести полную ерунду? Очень убедительную, логичную, красиво оформленную, но абсолютную неправду. Такое явление называется галлюцинацией и это одна из самых главных проблем больших языковых моделей.
Почему так происходит?
Представьте, что GPT — это человек, который прочитал и запомнил миллиарды текстов, но его обучение закончилось в апреле 2025 года. И теперь у него в голове только этот срез знаний о мире. Кроме того, у модели может не быть специфичных знаний лично о вас или внутренних процессах вашей компании, но ответ-то генерировать надо, и тогда GPT начинает придумывать ответы, которые лишь похожи на правду.
RAG помогает в автоматизации клиентской поддержки, при создании корпоративных чат-ботов, составлении аналитики и отчетности по внутренним данным, но так ли всё просто, как звучит, и как построить такой пайплайн? Обсудим это на вебинаре уже завтра, 29 октября
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6 4🔥3👍1
Многие начинающие BI-аналитики думают, что их задача — просто красиво визуализировать данные. Но настоящий профессионал начинает не с графиков, а с вопроса: «Что нужно узнать бизнесу?».
На вебинаре с автором канала Power BI Design Марией Гирда вы увидите, как рождаются такие дашборды — от бизнес-вопроса до живого дашборда, шаг за шагом: от формулировки цели через принципы и методологию построения дашбордов до конечного решения.
На вебинаре построим собственный отчёт в Fastboard и на его примере разберём:
⚡️ Всем зарегистрировавшимся дарим полезность — чек-лист самопроверки до создания дашборда!
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10🔥9❤8
Мы регулярно публикуем отзывы о нас и ценим вашу обратную связь. Пришла пора рассказать об этом всему миру!
Если вы учились на курсах Simulative или просто посещали наши бесплатные мероприятия или проходили бесплатные курсы, то этот конкурс для вас!
Что нужно сделать, чтобы принять участие:
Больше отзывов — больше шансов выиграть приз!
Среди участников разыграем 3 приза:
🕐 Отзывы принимаем до 10 ноября 23:59 МСК.
Итоги подведём 11 ноября здесь, в Telegram-канале, с помощью рандомайзера. Желаем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥7 3
Из декрета в IT: история студентки, которая вдохновляет
Знакомьтесь, Татьяна — студентка курса «Аналитик данных». Она поделилась историей, как сменила руководящую должность в промышленной компании на работу аналитика данных — без опыта в IT, но с сильной мотивацией и любовью к цифрам.
Читайте, как обучение помогло ей поверить в себя, собрать портфолио, найти первую работу в новой сфере и сказать: «Я у мамы инженер!»:
https://simulative.ru/blog/student-decree-analyst
📊 Simulative #отзыв
Знакомьтесь, Татьяна — студентка курса «Аналитик данных». Она поделилась историей, как сменила руководящую должность в промышленной компании на работу аналитика данных — без опыта в IT, но с сильной мотивацией и любовью к цифрам.
Читайте, как обучение помогло ей поверить в себя, собрать портфолио, найти первую работу в новой сфере и сказать: «Я у мамы инженер!»:
https://simulative.ru/blog/student-decree-analyst
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥9 4
Привет! Меня зовут Вячеслав Потапов, и я новый ментор потоков «Аналитика данных» и «BI-аналитика» в Simulative 👋
Я руковожу отделом продуктовой аналитики в Lamoda, где вместе с командой аналитиков помогаем продукту принимать правильные решения, оценивать изменения, искать точки роста. Для этого мы строим системы метрик, проводим десятки A/B в месяц и строим информативные дашборды для наших партнёров-продактов.
За последние годы я помогал выстраивать аналитику в Lamoda, Leroy Merlin и «Метр Квадратный».
Что я делал как руководитель и практик:
🟠 Выстраивал продуктовую аналитику: события, продуктовая воронка, атрибуция, метрики продукта.
🟠 Развивал BI-ландшафт: DWH, витрины, стандарты визуализации и дашбордов для принятия решений.
🟠 Развивал A/B-тестирование: дизайнил A/B-тесты, внедрял sanity-чеки, занимался интерпретацией результатов.
🟠 Обеспечивал качество данных: внедрял SLA на отчёты и тесты данных. Внедрял дата-каталог единый «источник правды» для бизнеса.
🟠 Развивал людей и процессы: нанимал и растил специалистов, оценивал их компетенции, внедрял процессы code review, выстраивал коммуникацию с продуктом и бизнесом.
Рад буду познакомиться с вами на курсе! Задавайте вопросы в комментариях и бронируйте место на потоке по ссылке ниже👇
🔗 Записаться на поток аналитика данных или BI-аналитика
📊 Simulative
Я руковожу отделом продуктовой аналитики в Lamoda, где вместе с командой аналитиков помогаем продукту принимать правильные решения, оценивать изменения, искать точки роста. Для этого мы строим системы метрик, проводим десятки A/B в месяц и строим информативные дашборды для наших партнёров-продактов.
За последние годы я помогал выстраивать аналитику в Lamoda, Leroy Merlin и «Метр Квадратный».
Что я делал как руководитель и практик:
Теперь присоединился к Simulative как ментор направлений — будем говорить о том, как аналитика влияет на продукт, деньги и стратегию, и как из просто цифр сделать реальные решения.
Рад буду познакомиться с вами на курсе! Задавайте вопросы в комментариях и бронируйте место на потоке по ссылке ниже
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤4 1
BI-аналитика — это про то, как визуализация помогает бизнесу принимать решения. Чтобы дашборды действительно работали, важно понимать, какой подход использовать в тех или иных случаях.
Собрали визуально в карточках проверенные методологии дашбордостроения ☝️
💡 Регистрируйтесь на вебинар 31 октября, где разберём, как из бизнес-вопроса сделать структуру отчёта или дашборда и какие ошибки совершают новички.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤4 1