MLinside - школа ML – Telegram
MLinside - школа ML
3.51K subscribers
202 photos
18 videos
164 links
Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
Download Telegram
MLinside - школа ML
Как пройти HR-этап ML-специалистам Обсудим 17 октября в 19:00 по МСК на вебинаре с экспертом MLinside Анастасией Рагозиной (лид-рекрутер с опытом 7 лет в IT компаниях) На вебинаре Анастасия расскажет: ▪️ что именно работодатели ждут от соискателей; ▪️ на…
Ещё год назад достаточно было просто выложить резюме на HH

Сейчас все изменилось. Говорят, что теперь рынок соискателей превратился в рынок работодателей.

Найм сотрудников стал ещё медленнее, требования выше, и компании экономят бюджет и осторожничают.

Сегодня на вебинаре поговорим, как адаптировать поиск работы к новым реалиям:
▪️Где искать вакансии в 2025 году;
▪️ Как читать рынок и понимать, кто реально нанимает;
▪️ Как оформить резюме и профиль, чтобы попасть в shortlist кандидатов.

Уже сегодня в 19:00 МСК. Присоединяйтесь и пройдите с HR-специалистом все этапы подготовки к поиску работы.
12
Мы начинаем вебинар на тему HR-части отбора кандидатов, подключаетесь: https://mlinside.getcourse.ru/pl/webinar/show?id=3204376
4
Давненько у нас не было этой рубрики, а мы знаем, что многим из вас она нравится. Итак, принесли вам новый разбор задач с собеседований по ML-теории, математической статистике и python

Если вы готовитесь к собеседованию Junior-позицию, вам точно будет полезно. Все посты из этой рубрики сможете найти по хэштегу и собрать свою мини-базу знаний для подготовки к собесам в будущем.

Итак, вопросы и задачи в студию:
1️⃣ Как можно интерпретировать влияние регуляризации на ландшафт функции потерь?
2️⃣ Что такое bootstrap?
3️⃣ В какой ML-модели используется bootstrap и для чего?

Ждём ваши ответы в комментариях!

#собеседования_MLinside
5
А вот и ответы на вопросы из вчерашнего поста

1️⃣ Как можно интерпретировать влияние регуляризации на ландшафт функции потерь?
1. L2-регуляризация (Ridge) добавляет квадратичный штраф, сглаживает ландшафт, делая экстремумы менее острыми и смещая их ближе к нулю. Это способствует устойчивости оптимизации и уменьшает чувствительность к шуму в данных.
2. L1-регуляризация (Lasso) делает ландшафт негладким — возникают "углы" вдоль осей, стимулируя зануление весов. Это создает разреженные решения, особенно полезные для отбора признаков.

В целом, регуляризация деформирует функцию потерь, направляя оптимизацию к более простым и обобщающим моделям.


2️⃣ Что такое bootstrap?
Bootstrap — это метод статистического ресемплинга с возвращением из исходной выборки для оценки устойчивости и разброса метрик модели без привлечения новых данных. На практике его используют для построения доверительных интервалов, оценки ошибки модели и проверки стабильности результатов на ограниченных данных. Благодаря bootstrap можно получить более надёжные оценки качества и избежать переоценки модели на тренировочных данных.


3️⃣ В какой ML-модели используется bootstrap и для чего?
Bootstrap активно используется в Random Forest для построения каждого дерева на случайной подвыборке с возвращением из обучающего датасета. Это обеспечивает разнообразие деревьев и снижает корреляцию между ними, что улучшает обобщающую способность ансамбля, снижая дисперсию модели.
16
Чем занимаются наши студенты, кроме лекций и вебинаров?

В курсе сейчас два проектных трека:
▪️ Прогноз изменения цены на недвижимость.
▪️ Детектор фейковых новостей на основе ML.
Каждый проект, это чёткое ТЗ, датасет, орг-правила, техфайлы и пошаговое задание: от формулировки гипотез до финальной валидации.

Как мы проверяем работы:
Проверка состоит из двух этапов
1. Промежуточная кросс-проверка: студенты смотрят решения друг друга, комментируют фичи, метрики, валидацию и код-стайл. Это сильно прокачивает насмотренность и помогает убрать «слепые зоны».
2. Финальная экспертиза: проекты, прошедшие первый этап, разбирают наши эксперты и дают конкретный вердикт: «доделать (и указывают конкретные правки – что именно доделать)» или «готово к портфолио/резюме».

Главная мотивация для студентов выполнять такие проекты, это подготовка портфолио, которое можно показать на собеседовании вместо «коммерческого опыта». Проекты, которые студенты делают на курсе, можно потом самостоятельно кастомизировать под требования конкретной компании. Например, проект прогноза изменения цены на недвижимость легко превращается в задачи ценообразования и спроса (например, сезонность товаров), а если добавить погодные и географические признаки, то проект уже подойдет для сферы каршеринга/такси.

Как итог, у каждого студента на руках появляется кейс с данными, кодом и метриками, который можно менять под требования другой компании, прикрепить к резюме и разобрать на интервью: «вот как я ставил задачу, вот почему выбрал такие признаки и метрики, вот результаты и ограничения».
🔥14
Учимся на практике: решаем реальные ML-задачки

Теория без практики быстро забывается. А вот решение задач из реальных проектов это то, что останется в портфолио и поможет на собеседованиях. Поэтому мы запустили эту рубрику с мини-кейсами по ML, которые можно решать вместе с нами.

Вторая задача: прогнозирование оттока клиентов

Что нужно сделать:
Предсказать, уйдет ли клиент из сервиса. Сфера может быть любая, например: банк, телеком, подписочный сервис.

Как это можно сделать:
▪️ Использовать признаки: время в сервисе, частота операций, обращения в поддержку, возраст
▪️ Учитывать дисбаланс классов используя F1, ROC-AUC
▪️ Попробовать: Logistic Regression, Random Forest, CatBoost
▪️ Добавить важность признаков для объяснения бизнесу


Данные можно взять на Kaggle: https://www.kaggle.com/datasets/blastchar/telco-customer-churn. Эта задачка похожа на то, что нужно будет делать ML-инженеру: банки, страховые компании и маркетплейсы решают подобные кейсы каждый день. Сделав эту задачку, вы сможете показать, что умеете мыслить как ML-специалист и писать работающий код.

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
17
Хотите заглянуть внутрь мира машинного обучения и понять, из чего складываются навыки ML-специалистов?

Наш демо-курс «База ML» как раз для этого. Попробуйте обучение без риска и вложений.

В демо-курсе вы найдете вводные уроки по ключевым темам:
▪️ математический анализ и линейная алгебра в ML;
▪️ основы программирования на Python;
▪️ линейные модели и нейронные сети;
▪️ метрики и практика их применения.

В блоках есть видео и домашние задания. Но сразу же предупреждаем, демо-курс нужен для того, чтобы посмотреть, как проходят уроки, послушать разных преподавателей и попробовать решить несколько задачек. После завершения демо-курса, вы не станете ML-специалистом, но посмотрите на мир машинного обучения изнутри.

Попробуйте демо-курс бесплатно прямо сейчас: https://stepik.org/course/218409
7
Помогите нам прокачать демо-курс «База ML»

Мы всегда работаем над повышением качества нашего обучения. Обратная связь студентов помогает нам улучшать как сами курсы, так и весь контент, который мы готовим для сообщества MLinside.

Если вы уже проходили наш демо-курс, расскажите, что понравилось, а что хотелось бы доработать и какие темы стоит раскрыть подробнее. Ваши отзывы не только помогают нам двигаться вперёд, но и повышают видимость курса на Stepik — а значит, больше людей сможет его найти и открыть для себя новую профессию.

Чтобы поддержать проект, оставьте отзыв прямо на платформе Stepik: https://stepik.org/course/218409/reviews. Для нас это очень ценно, а для будущих студентов станет ориентиром, стоит ли попробовать курс.

А если вы пока только думаете, демо курс «База ML» доступен бесплатно здесь: https://stepik.org/course/218409

Спасибо всем, кто делится впечатлениями. Именно за счёт этой обратной связи мы делаем курс сильнее.
11
От этого кровь стынет в жилах

Да, мы решили не проходить мимо хэллуина и собрали несколько по-настоящему жутких вещей. А чего боитесь вы?
😁377🔥2
Продолжаем нашу рубрику Code Detective. Она для тех, кто хочет прокачать навык чтения и анализа чужого кода – крайне полезный навык в работе ML-инженера.

Вот фрагмент кода:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, None], 'B': [4, None, 6]})
df.fillna(0).dropna()
print(df)

На первый взгляд всё выглядит нормально. Или нет? Тут есть ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.

Ответ мы опубликуем завтра, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
11
Как и обещали, вот ответ на вчерашний пост. Да, в коде есть ошибка.

Объяснение:
fillna(0) возвращает DataFrame, но результат не сохраняется
dropna() вызывается на результате fillna, но тоже не сохраняется
Исходный df не изменяется, так как inplace=False по умолчанию

Исправление:
df = df.fillna(0).dropna()
Или
df.fillna(0, inplace=True)
df.dropna(inplace=True)

#CodeDetective_MLinside
9
Что реально нужно из математики для старта в ML

Мы часто общаемся с новичками в ML. С теми, кто хочет пойти на курс «База ML» и теми, кто уже его проходит. И, пожалуй, самое частое опасение у всех, это математика. Многим кажется, что всё слишком сложно, и лучше не лезть. А зря. Для старта в ML нужно разобраться в нескольких концепциях, а остальное можно догнать потом, с ростом вашего уровня.

▪️Линейная алгебра
Во-первых, векторы и матрицы. Вы должны понимать, что это такое и какие базовые операции с ними можно делать. Это основа, так как большинство моделей ML можно выразить в матричном виде.
Во-вторых, это умножение матриц и это ключевая операция. Вся работа нейронных сетей это, по сути, последовательное перемножение матриц с весами.
Ну и в-третьих, собственные векторы и собственные значения. Эти концепции важны для методов уменьшения размерности, таких как PCA, которые помогают упростить данные без потери важной информации.

▪️Математический анализ
Первое, это производные. Вы должны понимать ее основной смысл – скорость изменения функции.
Второе, это градиент. Это вектор из частных производных, который всегда указывает в сторону самого быстрого роста функции. Чтобы минимизировать ошибку, мы движемся в обратную сторону. Этот метод называется градиентный спуск.
Третье, это различные функции потерь и понимание их свойств. Это функции, которые показывают, насколько сильно наша модель ошибается. И вам нужно понимать несколько основных и совсем несложных фактов про эти функции.

▪️Теория вероятностей и статистика
Во-первых, базовые понятия. Средние значения, медиана, дисперсия, стандартное отклонение – это ваши лучшие друзья. Это основа для анализа и подготовки любых данных.
Во-вторых, это распределение. Понимать, что такое нормальное, биномиальное и равномерное распределение.
В-третьих, АБ-тестирование. Этот инструмент позволяет специалисту понять, какой выигрыш бизнес получает после внедрения ML-модели. И это неотъемлемая часть многих задач в области Data Science.

А чтобы вы могли проверить себя и понять, где вы уже сильны, а что стоит добить, мы собрали мини-опрос ниже. Там всего 3 коротких вопроса, справитесь?
16🔥3