MLinside - школа ML – Telegram
MLinside - школа ML
3.51K subscribers
202 photos
18 videos
164 links
Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
Download Telegram
«А если я никогда не учился в техническом вузе, реально ли разобраться в ML?»

Реально, но чтобы уверенно развиваться в машинном обучении, нужен фундамент. И это не диплом технического вуза и не набор формул, а конкретные навыки.

В базу ML входят:
▪️ Математика – школьный и базовый университетский уровень: алгебра, математическая статистика, теория вероятности. Эти разделы помогут понимать, как работают алгоритмы и почему они дают именно такой результат.
▪️ Python – умение писать и читать код, использовать популярные библиотеки (NumPy, Pandas, Matplotlib).
▪️ Работа с данными – навыки загрузки, очистки, анализа и подготовки данных к обучению моделей.

Где можно изучать эти основы самостоятельно:
Математика: курсы на Stepik, Khan Academy, YouTube-каналы.
Python: курсы на Stepik, официальная документация Python.
Работа с данными: туториалы по Pandas и NumPy на Kaggle, документация библиотек, практические задания на Datacamp.

Важно не просто изучать теорию, но и сразу применять её в небольших проектах: анализировать датасеты с Kaggle, повторять чужие ноутбуки, пробовать решать простые задачи классификации или регрессии.

Такой подход позволяет за несколько месяцев пройти путь от нулевых знаний до уровня, с которого можно пробовать силы в реальных проектах или стажировках.
12🔥6👍2
Разбор задач с собеседований

Собеседования по ML-теории, Математической статистике и Python проводятся на всех уровнях вакансий на ML позиции, данный этап является ключевым для Junior специалистов.

Мы подготовили несколько вопросов и задач, которые могут встретиться на интервью, наши ответы на них мы отправим в ближайшее время.

А сейчас ждём ваших ответов в комментариях!

Вопросы и задачи:
1️⃣ Что вы чаще всего использовали для проверки качества моделей из Scikit-Learn?
2️⃣ Какие бывают усреднения метрик?
3️⃣ Bag of words – плюсы и минусы использования?

#собеседования_MLinside
5
Разбор задач с собеседований

Ответы на вопросы:
1️⃣ Что вы чаще всего использовали для проверки качества моделей из Scikit-Learn?
Чаще всего в Scikit-Learn для оценки качества моделей используют:
- cross_val_score — кросс-валидация с метриками (accuracy, F1, R² и др.)
- train_test_split — разделение на тренировочную и тестовую выборки для простой оценки
- Метрики из модуля metrics (accuracy_score, precision, recall, roc_auc, mean_squared_error и др.) для измерения качества на тесте


2️⃣ Какие бывают усреднения метрик?
Основные виды усреднения метрик (особенно для многоклассовых задач):
- micro — считает метрику по всем объектам сразу (агрегирует TP, FP, FN), подходит при несбалансированных классах.
- macro — усредняет метрики по классам одинаково, без учёта их размера, подчеркивает производительность на редких классах.
- weighted — усредняет по классам с весами, пропорциональными количеству объектов в каждом классе, баланс между micro и macro.


3️⃣ Bag of words – плюсы и минусы использования?
Bag of Words (BoW):
- Плюсы: простая, быстрая, интерпретируемая. Хорошо работает на коротких текстах.
- Минусы: игнорирует важность слов и контекст. Зависит от частоты, может переоценивать часто встречающиеся, но малоинформативные слова. Высокая размерность и разреженность

#собеседования_Mlinside
12👍2👎2🔥2
Как сделать так, чтобы AI удвоил доход проекта, а вам прибавили зарплату

Вы можете работать в два раза быстрее, приносить компании ощутимый рост, а себе – бонусы и повышение. Вопрос только в том, используете ли вы и ваша компания AI на максимум.

Во многих отделах до сих пор день уходит на одно и то же: подготовить презентацию или отчет, перерыть документы в поисках данных, разослать письма клиентам, отобрать кандидатов из сотен откликов, протестировать код или сверить техзадания. AI уже есть, но работает точечно: в одной команде ChatGPT стал полноценным помощником, а в другой о нем только слышали.

У нас есть корпоративный курс по AI, который уже прошли сотрудники компаний в разных сферах – от HR до разработки. И главная фишка курса в том, что мы не даем «универсальные советы», а сначала разбираем ваши процессы и подбираем сценарии под корпоративные стандарты. В результате уже через неделю вы видите, как рутинные задачи уходят, а эффективность и прибыль растут.

Примеры внедрения ИИ в работу:
▪️Разработка – автотесты и документация генерируются из кода сразу, а не через 2–3 дня, типовые запросы решаются за минуты.
▪️HR – сортировка 1000 резюме за пару минут вместо нескольких дней, автоматическая подготовка вакансий в корпоративном стиле, готовые письма кандидатам.
▪️Продажи – коммерческое предложение на 3 страницы за 5 минут, прогноз сделок с точностью 80%+, автоматический анализ базы клиентов.

Результаты клиентов: у разработчиков в банке ручная работа сократилась на 10%, аналитики в ритейле ускорили обработку данных в 3 раза, а маркетинг в FMCG освободил десятки часов в месяц на стратегические задачи.

Получите программу обучения и покажите руководителю, как показатели вашего отдела могут вырасти уже в этом квартале
👍6👀3
Можете ли вы стать Data Scientist-ом?

У вас есть ощущение, что вы что-то упускаете? Кажется, что аналитики поголовно переходят в ML, менеджеры учат алгоритмы, а разработчики обсуждают нейросети на каждом митинге. И наверняка вы задавали себе вопрос из заголовка этого поста.

Давайте разбираться. Этот пост – не про «заманить на обучение» и не про напугать количеством требуемых навыков. Мы хотим рассказать, чем занимается Data Scientist, какой порог входа, какие есть направления и кому подойдёт эта профессия. Всё для того, чтобы у вас было достаточно информации, чтобы ответить себе на вопрос «Можете ли вы стать Data Scientist-ом?»

Что делает Data Scientist?
Эта профессия на стыке сразу нескольких миров: аналитики, разработки, бизнеса и исследований. В ней есть рутина, например, чистка датасетов, обучение моделей снова и снова. Но есть и аналитика, код, разбор бизнес-задач и ресерч. В конечном счёте, вы помогаете компаниям точнее принимать решения и становиться эффективнее.

Какие требования?
В вакансиях можно найти громадное количество требований – нужно и в коде разбираться, и математику помнить, и бизнес понимать. Но никто не ждет, что вы будете экспертом во всем. Важно лишь начать с базы и постепенно расширять круг навыков. Здесь ценится не всезнание, а готовность учиться и расти. Плюс, у каждого Data Scientist-а есть свой перекос: кто-то сильнее в статистике, кто-то в коде, кто-то в аналитике. И это нормально, ведь команды собираются так, чтобы эти навыки дополняли друг друга.

Кому подойдет эта профессия?
Тем, кому интересно разбираться «почему так», кто любит находить инсайты в данных, шаг за шагом улучшать процессы и хочет понимать, как работают современные алгоритмы – от LLM до рекомендательных систем.

Какие направления есть внутри Data Science?
▪️ Data Analyst, этот человек ближе к бизнесу и метрикам;
▪️ Data Engineer, тут вы будете ближе к инфраструктуре и данным;
▪️ ML Engineer, это если вам нравится заниматься обучением моделей и продакшном.

Люди переходят сюда из бэкэнда, аналитики, даже из менеджмента. Возраст и стартовый путь не важны. Главное, это любопытство и системная работа. Data Science, это профессия для тех, кто хочет учиться и открывать новое. А остальное приходит с практикой.
👏65
Как выбрать направление в ML

Когда начинаешь интересоваться ML, кажется, что это бесконечный лабиринт: модели, алгоритмы, направления. Каждое направление звучит по-своему перспективно, но с чего начать? Классика, компьютерное зрение, NLP, рекомендательные системы или LLM?

Давайте разберёмся, чем они отличаются и куда лучше двигаться на старте.

Вот основные треки в ML:
▪️Классический ML
Это про задачи прогнозирования и классификации. Применяется в банках, ритейле, маркетинге. Используются библиотеки вроде Pandas, NumPy, Scikit-learn. Плюсы: вакансий много, задачи понятные. Минусы: высокая конкуренция.

▪️NLP и LLM
Это работа с текстами и языком. Сюда относятся чат-боты, анализ текстов, генеративные модели вроде ChatGPT. Востребованное и высокооплачиваемое направление, но специалистов мало, поэтому вакансий открывается всё больше.

▪️Компьютерное зрение
Это про задачи с изображениями и видео: от распознавания лиц до беспилотников. Минусы: нужны большие данные и ресурсы. Плюсы: яркие, наглядные проекты и интересные задачи.

▪️Рекомендательные системы
Это про подбор фильмов, товаров или контента. Если хотите работать в Яндекс.Маркете, Ozon или Netflix, вам сюда. Здесь ML внедряется особенно активно: вакансий много, задач тоже. Основной минус, это большая конкуренция и высокий порог входа для новичков.

Каждое направление по-своему интересно. Классический ML и рекомендации ближе к бизнесу: здесь важна польза и внедрение, а не исследование. NLP и CV больше про ресерч и работу с алгоритмами, где важна новизна решений. LLM больше похоже на стартап: много экспериментов, меньше устоявшихся процессов, но зато максимальный хайп и высокая оплата.

Но в любом случае помните, что выбор направления не навсегда. Навыки в ML легко переносятся из одной области в другую. Начав с классики, можно уйти в NLP, а опыт в рекомендациях пригодится в CV. Если вы только присматриваетесь к ML, попробуйте разобраться, какой тип задач вам ближе: бизнесовые метрики, работа с текстами, изображениями или новые генеративные модели. От этого и стоит отталкиваться.
🔥1584👍1
🔖Детерменируем вашу вербальную аддитивность – принесли ML-словарик. Читайте и сохраняйте, что-то из этого наверяка вам пригодится на собеседованиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
116👍7👀3
Главная ошибка тех, кто начинает путь в ML

Машинное обучение выглядит как универсальный билет в карьеру будущего. Зарплаты выше среднего, технологий вокруг всё больше, компании охотно набирают специалистов. Но правда в том, что ML подходит далеко не каждому.

Как правило, люди приходят в машинное обучение и пытаются «схватить всё и сразу». Кто-то начинает с модных статей про нейросети, кто-то копирует чужие ноутбуки с Kaggle, кто-то смотрит курсы про LLM, так и не разобравшись, что такое переобучение или градиентный спуск. В итоге проходят месяцы, но глубины знаний нет и приходит разочарование.

ML не про хаотичное обучение. Это сфера, где важна последовательность:
▪️ сначала Python и умение писать код
▪️ затем математика: производные, линейная алгебра, теория вероятностей
▪️ после: классические модели, их принципы и ограничения
▪️ и только потом переход к сложным вещам вроде CV, NLP или LLM

Этот путь кажется длиннее, чем просто повторить чужой код. Но именно он позволяет понимать, что происходит внутри алгоритмов, и превращает набор «магических формул» в реальные рабочие инструменты.

И здесь важно сказать прямо: ML не держится на популярных в последние несколько лет технологиях и обещаниях больших зарплат. Те, кто пришёл ради быстрых денег, быстро уходят. А остаются те, кому нравится сам процесс. Учиться, экспериментировать, проверять гипотезы. И именно они со временем получают и деньги, и карьеру, потому что выдержали то, что другим показалось скучным или слишком сложным.

ML подойдёт тем, кто готов к системной работе и у кого есть искренний интерес к данным и алгоритмам. Для остальных это будет очередная мода, которая быстро пройдёт.
23👍4🔥3
А мы вам принесли новые задачи с собеседований по ML-теории, математической статистике и Python

Если вы готовитесь проходить собеседования или собираете базу знаний для подготовки к собесам в будущем – вам будет полезно. Мы подготовили несколько вопросов и задач, которые с большей долей вероятность встретятся на интервью.

Схема привычная – сначала в комментариях отвечаете вы, а через несколько дней мы публикуем правильные ответы и вы сможете себя проверить.

Вопросы и задачи:
1️⃣ Как можно найти выбросы в ваших данных?
2️⃣ Почему регуляризация не всегда спасает от переобучения? В каких случаях она может не работать?
3️⃣ Как измениться ROC-AUC, если все предсказания возвести в квадрат? Возведя в квадрат мы сильнее уменьшим уверенность модели на неуверенных скорах.

#собеседования_Mlinside
4👍3🔥1
Ответы на задачки с собеседований

1️⃣ Как можно найти выбросы в ваших данных?
Выбросы в данных можно находить с помощью статистических методов (например, Z-score или IQR для числовых фич), мультивариантных подходов (Mahalanobis distance, Isolation Forest, One-Class SVM), или через модели — например, анализ больших остатков после обучения простой модели или использование автоэнкодеров с высоким reconstruction error. Также помогают визуализации (PCA, t-SNE, boxplot) и, для временных рядов, STL-декомпозиция. Важно учитывать контекст: выброс — это не всегда ошибка, а порой ключевой сигнал (например, во фроде), поэтому детекция должна быть адаптивной и осмысленной, а не только механической.


2️⃣ Почему регуляризация не всегда спасает от переобучения? В каких случаях она может не работать?
Она может не работать, например, в следующих случаях:
1. Мало данных или плохое качество данных — при высокой шумности или малом количестве данных, модель переобучится даже с регуляризацией, так как будет запоминать шум.
2. Фичи в неправильном масштабе — если признаки не отнормированы, регуляризация работает неадекватно: признаки с большим масштабом будут штрафоваться больше.
3. Слабая регуляризация — если коэффициенты регуляризации слишком малы, эффект почти отсутствует.
4. Сильная мультиколлинеарность - L2 сгладит веса, но модель всё ещё может не научиться обобщать данные из-за линейных зависимостей. Стоит попробовать применить PCA.


3️⃣ Как измениться ROC-AUC, если все предсказания возвести в квадрат? Возведя в квадрат мы сильнее уменьшим уверенность модели на неуверенных скорах.
Возведение всех предсказаний в квадрат — это монотонно возрастающее преобразование, поэтому ROC-AUC не изменится, так как метрика зависит только от порядка (ранжирования) предсказаний. Даже если шкала уверенности изменится (например, низкие скоры станут ещё ниже), относительный порядок между позитивными и негативными примерами останется тем же. Следовательно, ROC-AUC остаётся инвариантной к таким преобразованиям.

#собеседования_MLinside
🔥112👍1
Как найти первую работу в ML

«IT рынок сломан», «джуны не нужны» и подобные утверждения сейчас звучат регулярно. Но работа никуда не делась и джуны, да и даже стажеры нужны. Только нанимают их не из «общего потока», а через воронку школ/стажировок и личные рекомендации.

Хотите найти первую работу в ML? Вот вам самый кратчайший путь до первого оффера:

▪️ Используйте платформы, но делайте упор на стажировки и рекомендации
HH, LinkedIn, Getmatch, форумы/чаты – ODS сообщество и страницы вакансий на сайтах компаний – это всё база. Но тут включаются ATS-системы, субъективность HR и огромное количество кандидатов на рынке. Поэтому, без метки «проверен», резюме тонет в полутора тысячах других откликов. Сильнее всего работают школы и стажировки при компаниях и персональные рекомендации от действующих специалистов. Сейчас для компании это способ снизить риск найма: за вас кто-то ручается.

▪️ Создайте или наращивайте сеть контактов, которые могут вас порекомендовать
Покажите себя там, где нанимают. Ходите на митапы/конференции не ради контента, а ради разговоров с докладчиками и лидерами команд. А прямой вопрос «что мне сделать, чтобы вы меня порекомендовали?» работает на удивление хорошо. Второй путь, это целевые собеседования ради обратной связи: даже если провалитесь, попросите чёткий план улучшений и вернитесь к тому же интервьюеру через 4–6 недель с выполненными пунктами. Например, мы перед запуском третьего потока курса проводили Mock-собеседования, можете посмотреть записи. Обычно это производит сильное впечатление и помогает сделать так, чтобы о вас вспомнили, когда откроется подходящая вакансия.

▪️ Ну и помните, что мотивация «работать и развиваться» может быть важнее хардов
Мотивированного джуна берут охотнее, чем «полусильного», но без воли к росту. Добавляйте больше конкретики в резюме: где, что и с каким эффектом вы сделали. Но аккуратней, если будете «накручивать» опыт, получите завышенные ожидания и уменьшите шанс на получения оффера в итоге.

Если подводить итог и вынести 1 ключевую мысль, то вот она: конверсию в оффер поднимает не количество вакансий, на которые вы откликнулись, а ваша видимость в профессиональной среде, нетворкинг и траектория «сказал — сделал — показал».

Как только у вас появляется человек, готовый вас рекомендовать, вероятность разговора с HR растёт кратно. Ищите такие возможности, просите конкретику и обязательно возвращайтесь с выполненными шагами. Именно так джуны становятся кандидатами, которых не хочется упускать.
10👍1🔥1
Экспресс-CustDev: расскажите, чем занимаетесь?
Anonymous Poll
27%
Я аналитик
29%
Я разработчик
8%
Я менеджер
12%
Я не из IT
24%
Другое
MLinside - школа ML
Экспресс-CustDev: расскажите, чем занимаетесь?
Уберите технарей от экрана: этот пост для тех, кто всегда считал себя гуманитарием

В машинном обучении не нужен диплом мехмата, чтобы разобраться и работать. На самом деле, даже если вам в школе говорили «математика не твоё», это не повод ставить крест на ML.

Здесь используется ограниченный набор тем: линейная алгебра, теория вероятностей и статистика. И главное не зубрить бесконечные формулы, а понять, откуда они берутся. Математика в ML, это язык, который помогает описывать мир. Числа – как краски, формулы – как кисти, а модель — готовая картина.

Так как гуманитарию подружиться с математикой в ML?
▪️ Начинайте с визуализаций, а не с зазубривания формул.
▪️ Используйте понятные объяснения и визуальные ресурсы вроде Better Explained или YouTube.
▪️ Работайте с нейросетями, как с репетитором: задавайте вопросы шаг за шагом, пока всё не поймете тему до конца.
▪️ Проверяйте себя: попробуйте объяснить тему другу или коллеге простыми словами.

В ML остаются не те, кто «родился математиком», а те, кому интересно разбираться и кто готов шаг за шагом учиться. Если вы всегда считали, что математика не для вас, возможно, сейчас самое время попробовать ещё раз.
19👍5🔥3😁1
Продолжаем разбор задач с собеседований по ML-теории, математической статистике и python

Решение таких задач помогает подготовиться к собеседованиям на Junior-позиции, а еще вы можете по хэштегу найти предыдущие посты и собрать свою мини-базу знаний для подготовки к собесам в будущем.

Итак, вопросы и задачи в студию:
1️⃣ Какая модель лучше разделяет классы, у которой ROC-AUC равен 0.87 или 0.1?
2️⃣ Зачем нужна PR-кривая?
3️⃣ Как бороться с дисбалансом классов в данных?

Ждём ваши ответы в комментариях!

#собеседования_MLinside
5👍1🔥1
MLinside - школа ML
Продолжаем разбор задач с собеседований по ML-теории, математической статистике и python Решение таких задач помогает подготовиться к собеседованиям на Junior-позиции, а еще вы можете по хэштегу найти предыдущие посты и собрать свою мини-базу знаний для подготовки…
А вот и ответы на вопросы из вчерашнего поста

1️⃣ Какая модель лучше разделяет классы, у которой ROC-AUC равен 0.87 или 0.1?
Модель с рок-ауком 0.1, так как она разделяет классы очень хорошо, просто путает их в предсказании. Инвертировав предсказания мы получим рок-аук 0.9, что больше 0.87.


2️⃣ Зачем нужна PR-кривая?

PR-кривая (precision-recall) особенно полезна при сильном дисбалансе классов, где ROC-AUC может вводить в заблуждение, показывая высокий результат за счёт большого числа true negative. Она фокусируется на качестве положительных предсказаний, показывая, насколько хорошо модель находит редкие, но важные объекты (например, фрод или болезни). В практике она помогает выбрать порог вероятности, а так же сравнивать модели по значимым метрикам в условиях малого положительного класса.


3️⃣ Как бороться с дисбалансом классов в данных?

С дисбалансом классов можно бороться как на уровне данных (oversampling редкого класса — например, SMOTE, или undersampling частого), так и на уровне модели — через использование взвешенной функции потерь (class weights) или кастомной метрики оптимизации. Важно также выбирать метрики, устойчивые к дисбалансу, такие как PR-AUC, F1-score. На практике часто комбинируют подходы, а ещё используют стратифицированную валидацию.

#собеседования_MLinside
5👎3👍1🔥1
MLinside - школа ML
Экспресс-CustDev: расскажите, чем занимаетесь?
Недавно мы провели опрос: чем вы занимаетесь?

234 человека приняли участие и 26% выбрали вариант «другое». Четверть аудитории! Это значит, что за этим скрываются интересные истории, которые мы пока не знаем. А скоро у нас стартует 4-й поток «База ML», и нам важно услышать вас, чтобы сделать программу и контент ещё полезнее и интереснее.

Мы собираем обратную связь через короткую форму. А для тех, кто не просто заполнит её, но и выйдет с нами на короткий созвон, мы подарим промокод на скидку к новому потоку.

Поделитесь своим опытом — это поможет нам выстроить действительно полезную и актуальную программу курса и контент в этом канале: https://forms.yandex.ru/cloud/68c280364936390d955149ec
5👍1🔥1