Simulative
Всем привет! На связи ментор Кристина Желтова 👋 Представьте, что вы работаете ML-инженером, и вам нужно построить модель, которая поможет банку решить важный вопрос: кому из заёмщиков стоит выдать кредит, а кому отказать? Такая задача называется кредитным…
Привет! Отвечаем на вопросы по кредитному скорингу — саму задачу публиковали вот тут:
1️⃣ Какой тип модели подходит для задачи: классификация или регрессия? Почему?
Для задачи кредитного скоринга обычно используют бинарную классификацию, так как модель должна предсказать, выйдет ли заёмщик в дефолт (1 — дефолт, 0 — надёжный клиент). Более того, построив вероятностную модель бинарной классификации, которая на выходе выдает вероятность дефолта, можно принимать решение о выдаче кредита или отказе по заранее выбранному порогу, балансируя риски.
2️⃣ Какие метрики используете, чтобы оценить качество предсказаний?
В скоринговых задачах важно учитывать не только общий процент правильных ответов (accuracy), но и ранжирующую способность моделей, и баланс между разными типами ошибок. Поэтому наиболее часто используемые метрики:
🟠 ROC-AUC (Area Under Curve) — интегральная оценка качества ранжирования. Она нечувствительна к изменению порога классификации.
🟠 Коэффициент Джини (Gini) — производная от ROC-AUC. Часто используется регуляторами и банками, характеризует «отделимость» надёжных клиентов от рискованных.
🟠 Также ценно посмотреть на Precision и Recall для «дефолтов» и матрицу ошибок, которая позволяет увидеть баланс между ошибками в обе стороны (false positive / false negative).
В целом же выбор метрики и интерпретация её значений зависит от бизнес-задачи. Иногда важнее снижение рисков (например, минимизация false negative-ошибок), иногда — рост объёма кредитов (максимизация recall).
3️⃣ Какие возможные проблемы могут возникнуть при построении такой модели?
Точно стоит учесть типовые моменты, такие как:
🟠 Несбалансированность классов. Всё-таки больше людей возвращают кредиты, чем выходят в дефолт, поэтому в распределении целевой переменной есть дисбаланс и требуется использование специальных техник сэмплирования или корректировка весов классов на уровне модели / функции потерь.
🟠 Недостаточная интерпретируемость. Для банковских моделей важна способность объяснить решение, а сложные ML-методы (например, нейросети) в этом плане уступают более простым моделям.
🟠 Некорректное разделение обучающей и тестовой выборок или ошибки в построении схемы валидации могут приводить к завышению метрик. Например, если в данных есть признак «сумма задолженности через 6 месяцев после выдачи кредита», то модель использует его для предсказания и покажет хорошее качество на валидации, однако в боевых условиях таких данных по заемщику не будет — это проблема неправильного разделения выборки.
🟠 Изменчивость данных. Поведение клиентов и распределение их характеристик может меняться во времени, а, значит, модель быстро устаревает и деградирует.
🟠 Правовые и этические ограничения. Иногда так бывает, что не все данные из имеющихся можно использовать по этическим причинам или юридическим ограничениям.
📊 Simulative
Для задачи кредитного скоринга обычно используют бинарную классификацию, так как модель должна предсказать, выйдет ли заёмщик в дефолт (1 — дефолт, 0 — надёжный клиент). Более того, построив вероятностную модель бинарной классификации, которая на выходе выдает вероятность дефолта, можно принимать решение о выдаче кредита или отказе по заранее выбранному порогу, балансируя риски.
В скоринговых задачах важно учитывать не только общий процент правильных ответов (accuracy), но и ранжирующую способность моделей, и баланс между разными типами ошибок. Поэтому наиболее часто используемые метрики:
В целом же выбор метрики и интерпретация её значений зависит от бизнес-задачи. Иногда важнее снижение рисков (например, минимизация false negative-ошибок), иногда — рост объёма кредитов (максимизация recall).
Точно стоит учесть типовые моменты, такие как:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5 3
Отлично, вы собрали все необходимые данные, чтобы сделать свой первый дашборд!
Нажмите на график, чтобы добавить его в Metabase → 📊
📊 Simulative
Нажмите на график, чтобы добавить его в Metabase → 📊
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5 3
Гайд по JOIN в SQL: виды и примеры
Когда вы начинаете работать с данными, быстро становится ясно: нужная информация часто разбросана по разным таблицам. В Excel это решается с помощью ВПР, а в SQL — через оператор JOIN.
➡️ JOIN (от англ. join — «соединять») позволяет объединять таблицы и собирать данные в одну выборку. Это один из самых частых операторов, без которого не обходится ни один аналитик.
Из нашего гайда вы узнаете:
🟠 Какие бывают типы JOIN и чем они отличаются;
🟠 Как писать запросы с JOIN под разные задачи;
🟠 Как оптимизировать JOIN, чтобы запросы выполнялись быстрее.
Материал поможет вам уверенно работать с объединением таблиц и лучше понимать, как устроены связи в данных. Сохраняйте гайд, чтобы не искать примеры в спешке перед дедлайном😉
✅ Получить материал
📊 Simulative
Когда вы начинаете работать с данными, быстро становится ясно: нужная информация часто разбросана по разным таблицам. В Excel это решается с помощью ВПР, а в SQL — через оператор JOIN.
Из нашего гайда вы узнаете:
Материал поможет вам уверенно работать с объединением таблиц и лучше понимать, как устроены связи в данных. Сохраняйте гайд, чтобы не искать примеры в спешке перед дедлайном
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥5 5👍2
Почему нейросети галлюцинируют, и как RAG всё исправит
Привет! Ментор курса ML-инженер Кристина Желтова на связи 👋
Почему так происходит?
Представьте, что GPT — это человек, который прочитал и запомнил миллиарды текстов, но его обучение закончилось в апреле 2025 года. И теперь у него в голове только этот срез знаний о мире. Кроме того, у модели может не быть специфичных знаний лично о вас или внутренних процессах вашей компании, но ответ-то генерировать надо, и тогда GPT начинает придумывать ответы, которые лишь похожи на правду.
💡 При этом есть способ, позволяющий наполнить модель актуальной информацией прямо во время генерации ответа — RAG (Retrieval-Augmented Generation). Общий принцип довольно прост: в момент обработки пользовательского запроса ищем релевантную для составления информацию в базе знаний (например, документы компании, инструкции, отчеты и т. п.), найденную информацию передаём в контекст модели вместе с запросом, и тогда модель отвечает, уже имея на руках корректные данные.
RAG помогает в автоматизации клиентской поддержки, при создании корпоративных чат-ботов, составлении аналитики и отчетности по внутренним данным, но так ли всё просто, как звучит, и как построить такой пайплайн? Обсудим это на вебинаре уже завтра, 29 октября👇
➡️ Зарегистрироваться на вебинар
📊 Simulative
Привет! Ментор курса ML-инженер Кристина Желтова на связи 👋
Вы когда-нибудь замечали, что GPT-модели иногда могут очень уверенно нести полную ерунду? Очень убедительную, логичную, красиво оформленную, но абсолютную неправду. Такое явление называется галлюцинацией и это одна из самых главных проблем больших языковых моделей.
Почему так происходит?
Представьте, что GPT — это человек, который прочитал и запомнил миллиарды текстов, но его обучение закончилось в апреле 2025 года. И теперь у него в голове только этот срез знаний о мире. Кроме того, у модели может не быть специфичных знаний лично о вас или внутренних процессах вашей компании, но ответ-то генерировать надо, и тогда GPT начинает придумывать ответы, которые лишь похожи на правду.
RAG помогает в автоматизации клиентской поддержки, при создании корпоративных чат-ботов, составлении аналитики и отчетности по внутренним данным, но так ли всё просто, как звучит, и как построить такой пайплайн? Обсудим это на вебинаре уже завтра, 29 октября
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6 4🔥3👍1
Многие начинающие BI-аналитики думают, что их задача — просто красиво визуализировать данные. Но настоящий профессионал начинает не с графиков, а с вопроса: «Что нужно узнать бизнесу?».
На вебинаре с автором канала Power BI Design Марией Гирда вы увидите, как рождаются такие дашборды — от бизнес-вопроса до живого дашборда, шаг за шагом: от формулировки цели через принципы и методологию построения дашбордов до конечного решения.
На вебинаре построим собственный отчёт в Fastboard и на его примере разберём:
⚡️ Всем зарегистрировавшимся дарим полезность — чек-лист самопроверки до создания дашборда!
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10🔥9❤8
Мы регулярно публикуем отзывы о нас и ценим вашу обратную связь. Пришла пора рассказать об этом всему миру!
Если вы учились на курсах Simulative или просто посещали наши бесплатные мероприятия или проходили бесплатные курсы, то этот конкурс для вас!
Что нужно сделать, чтобы принять участие:
Больше отзывов — больше шансов выиграть приз!
Среди участников разыграем 3 приза:
🕐 Отзывы принимаем до 10 ноября 23:59 МСК.
Итоги подведём 11 ноября здесь, в Telegram-канале, с помощью рандомайзера. Желаем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥7 3
Из декрета в IT: история студентки, которая вдохновляет
Знакомьтесь, Татьяна — студентка курса «Аналитик данных». Она поделилась историей, как сменила руководящую должность в промышленной компании на работу аналитика данных — без опыта в IT, но с сильной мотивацией и любовью к цифрам.
Читайте, как обучение помогло ей поверить в себя, собрать портфолио, найти первую работу в новой сфере и сказать: «Я у мамы инженер!»:
https://simulative.ru/blog/student-decree-analyst
📊 Simulative #отзыв
Знакомьтесь, Татьяна — студентка курса «Аналитик данных». Она поделилась историей, как сменила руководящую должность в промышленной компании на работу аналитика данных — без опыта в IT, но с сильной мотивацией и любовью к цифрам.
Читайте, как обучение помогло ей поверить в себя, собрать портфолио, найти первую работу в новой сфере и сказать: «Я у мамы инженер!»:
https://simulative.ru/blog/student-decree-analyst
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥9 4
Привет! Меня зовут Вячеслав Потапов, и я новый ментор потоков «Аналитика данных» и «BI-аналитика» в Simulative 👋
Я руковожу отделом продуктовой аналитики в Lamoda, где вместе с командой аналитиков помогаем продукту принимать правильные решения, оценивать изменения, искать точки роста. Для этого мы строим системы метрик, проводим десятки A/B в месяц и строим информативные дашборды для наших партнёров-продактов.
За последние годы я помогал выстраивать аналитику в Lamoda, Leroy Merlin и «Метр Квадратный».
Что я делал как руководитель и практик:
🟠 Выстраивал продуктовую аналитику: события, продуктовая воронка, атрибуция, метрики продукта.
🟠 Развивал BI-ландшафт: DWH, витрины, стандарты визуализации и дашбордов для принятия решений.
🟠 Развивал A/B-тестирование: дизайнил A/B-тесты, внедрял sanity-чеки, занимался интерпретацией результатов.
🟠 Обеспечивал качество данных: внедрял SLA на отчёты и тесты данных. Внедрял дата-каталог единый «источник правды» для бизнеса.
🟠 Развивал людей и процессы: нанимал и растил специалистов, оценивал их компетенции, внедрял процессы code review, выстраивал коммуникацию с продуктом и бизнесом.
Рад буду познакомиться с вами на курсе! Задавайте вопросы в комментариях и бронируйте место на потоке по ссылке ниже👇
🔗 Записаться на поток аналитика данных или BI-аналитика
📊 Simulative
Я руковожу отделом продуктовой аналитики в Lamoda, где вместе с командой аналитиков помогаем продукту принимать правильные решения, оценивать изменения, искать точки роста. Для этого мы строим системы метрик, проводим десятки A/B в месяц и строим информативные дашборды для наших партнёров-продактов.
За последние годы я помогал выстраивать аналитику в Lamoda, Leroy Merlin и «Метр Квадратный».
Что я делал как руководитель и практик:
Теперь присоединился к Simulative как ментор направлений — будем говорить о том, как аналитика влияет на продукт, деньги и стратегию, и как из просто цифр сделать реальные решения.
Рад буду познакомиться с вами на курсе! Задавайте вопросы в комментариях и бронируйте место на потоке по ссылке ниже
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤4 1
BI-аналитика — это про то, как визуализация помогает бизнесу принимать решения. Чтобы дашборды действительно работали, важно понимать, какой подход использовать в тех или иных случаях.
Собрали визуально в карточках проверенные методологии дашбордостроения ☝️
💡 Регистрируйтесь на вебинар 31 октября, где разберём, как из бизнес-вопроса сделать структуру отчёта или дашборда и какие ошибки совершают новички.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤4 1
Simulative
А тем временем напоминаем: через час — вебинар по созданию своего ChatGPT 👑
Вместе с ментором потока «ML-инженер» Кристиной Желтовой соберём простую RAG-систему, которая помогает модели не выдумывать ответы, а искать нужную информацию в источниках и объяснять её своими словами.
➡️ Зарегистрироваться на вебинар
📊 Simulative
Вместе с ментором потока «ML-инженер» Кристиной Желтовой соберём простую RAG-систему, которая помогает модели не выдумывать ответы, а искать нужную информацию в источниках и объяснять её своими словами.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1 1
Вебинар в октябре: проходит
Я, не успевший его посмотреть: 🗿🗿🗿
Не беда, мы успели всё сохранить! Переходите по ссылке и получите записи вебинаров по визуализациям в Python, ELT-процессам и росту в профессии 💡
😶 Забрать записи вебинаров
📊 Simulative
Я, не успевший его посмотреть: 🗿🗿🗿
Не беда, мы успели всё сохранить! Переходите по ссылке и получите записи вебинаров по визуализациям в Python, ELT-процессам и росту в профессии 💡
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤7 3
Чёрная пятница в Simulative: скидки до 35% на все курсы
Какой ноябрь — и без выгодных предложений! С 31 октября по 15 ноября вы можете воспользоваться скидкой до 35% на наши платные курсы: «Аналитик данных», «BI-аналитик», «Инженер данных», «ML-инженер» и «Fullstack-аналитик».
Оставьте заявку до 15 ноября и начните свой путь к успешной карьере с Simulative!
➡️ Оставить заявку
📊 Simulative
Какой ноябрь — и без выгодных предложений! С 31 октября по 15 ноября вы можете воспользоваться скидкой до 35% на наши платные курсы: «Аналитик данных», «BI-аналитик», «Инженер данных», «ML-инженер» и «Fullstack-аналитик».
Оставьте заявку до 15 ноября и начните свой путь к успешной карьере с Simulative!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤4 3