MLinside - школа ML – Telegram
MLinside - школа ML
3.51K subscribers
202 photos
18 videos
164 links
Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
Download Telegram
Учимся на практике: решаем реальные ML-задачки

Это наша регулярная рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Пятая задача: прогнозирование спроса на товар

Что нужно сделать:
Узнать, сколько единиц товара будет продано завтра или на следующей неделе.

Как можно сделать:
▪️ Использовать признаки: история продаж, день недели, сезон, скидки, реклама;
▪️ Добавить лаги и скользящие средние;
▪️ Попробовать: Prophet, XGBoost, ARIMA.

Данные можно взять на Kaggle: https://www.kaggle.com/c/store-sales-time-series-forecasting

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
🔥12👍65
Многие начинающие ML-инженеры ищут «самую сильную модель» и гонятся за нейросетями и SOTA-результатами. Но в реальной работе всё устроено иначе: большинство бизнес-задач решаются двумя базовыми моделями – линейной/логистической регрессией и градиентным бустингом.

У нас вышло видео, где Александр Дубейковский разбирает, почему именно эти 2 модели покрывают основную часть практических кейсов и зачем джуну уметь работать с ними глубоко, а не поверхностно знать всё подряд.

Видео уже вышло на всех наших площадках, если ещё не смотрели - собрали для вас ссылки для удобства:
YouTube
ВК
Дзен
🤓186👍3🔥2
В этом коде есть ошибка?

Наша регулярная рубрика Code Detective снова тут. Как обычно, мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.

Вот фрагмент кода:
import pandas as pd

df = pd.DataFrame({'category': ['A', 'B', 'C'], 'value': [1, 2, 3]})
categories = ['A', 'C']

# Хотим отфильтровать строки, где category в списке
filtered = df[df['category'] in categories]


Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.

Ответ мы опубликуем через пару дней, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
3
В этом коде есть ошибка?
Anonymous Poll
82%
Да
18%
Нет
MLinside - школа ML
В этом коде есть ошибка? Наша регулярная рубрика Code Detective снова тут. Как обычно, мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный…
А вот и ответ на пост. Да, в коде есть ошибка.
Объяснение:
df['category'] in categories – некорректно. Оператор in для Series проверяет наличие метки индекса, а не значений и это вызовет ValueError или ложный результат


Исправление:
filtered = df[df['category'].isin(categories)]


#CodeDetective_MLinside
Media is too big
VIEW IN TELEGRAM
Как спорт влияет на карьеру?

В третьей части подкаста с Валерием Бабушкиным разговор вышел за рамки карьеры и машинного обучения. На этот раз Виктор и Валерий обсудили спорт и его роль в жизни специалиста, работающего в высокоинтеллектуальной и конкурентной среде.

▪️Как спортивный опыт влияет на мышление, дисциплину и принятие решений?
▪️Почему регулярные тренировки помогают справляться со стрессом, выгоранием и сложными управленческими задачами?
▪️И есть ли параллели между спортом высоких достижений и работой в бигтехе?

Валерий поделился личным опытом, рассказал, как он держит баланс между работой и физической нагрузкой, про мотивацию, долгосрочные цели и о том, почему развитие вне профессии напрямую отражается на результатах в профессии.

Плюс, в подкасте есть важный анонс. И если вы хотите попасть на курс ML System Design в числе первых, переходите в бота и оставляйте заявку: https://news.1rj.ru/str/ml_insideBot?start=ML-System-Design, количество мест на курсе будет ограничено, так что если хотите успеть, это ваш шанс.

Подкаст уже вышел на всех наших площадках, собрали для вас ссылки для удобства:
YouTube
ВК
Дзен
🔥105🏆4🤔1
Новый год уже совсем не за горами, и мы решили собрать список подарков, о которых мечтает любой ML-инженер. А какой из них вы бы выбрали для себя?
5
Forwarded from Kantor.AI
Перезапуск специализации по ML: как было на Курсере, только с современной программой

С 2016 по 2022 год более 200 тысяч человек прошло через нашу с коллегами специализацию "Машинное обучение и анализ данных" на Coursera, выпущенную под брендом МФТИ и Яндекса. Курсы специализации практически стандартом в изучении Machine Learning на целых шесть лет, а стоило все это удовольствие всего 4999 рублей в месяц. Но с тех пор набор тем, которые нужно знать начинающему Data Scientist'у или ML-инженеру, существенно изменился. Поэтому мы с командой MLinside переосмыслили специализацию и выпускаем ее новую версию, причем по той же цене, что была четыре года назад.

Список курсов мы подбирали очень внимательно, со всей заботой о том, чтобы изучивший все видеолекции и выполнивший все задания слушатель смог построить карьеру в сфере AI. Начинаем с пререквизитов и классического машинного обучения, далее знакомимся с глубоким обучением и особенно горячей сейчас темой AI-агентов. После переходим уже к суровым будням коммерческого применения AI: A/B тестам, MLOps и ML System Design. А чтобы курсы не устаревали от того, как быстро развивается в наши дни AI, уже вышедшие курсы мы будем продолжать обновлять, а главное - дополнять. Ближайшая аналогия здесь - основной сюжет и побочные квесты в компьютерных играх. Курсы мы выпускаем с тем набором материалов, которые составляют "основной сюжет", но с течением времени будет появляться все больше опциональных лекций и заданий ("побочных квестов").

Наша миссия - дать широкому кругу людей, интересующихся AI, доступ к курсам топового уровня. Материал курсов специализации довольно непростой: в основу всех курсов, кроме вводного, положены материалы занятий в сильнейших российских ВУЗах - МФТИ, МГУ, ВШЭ, ИТМО. Здесь не будет обещаний, что "каждый может стать data scientist". Но тот, кто справится с материалом, сможет.

На специализацию УЖЕ можно оформить подписку: https://mlinside.ru/specializaciya

На текущий момент готовы подготовительный модуль (математика и python) и classic ML, до конца января планируем выпустить DL (значительная часть материала уже готова), до конца февраля - AI агентов. Оставшиеся курсы тоже будут выходить с похожей периодичностью.
21🔥5👍3
Как изменится машинное обучение в 2026 году

В 2026 году ML перестанет восприниматься как что-то дорогое, сложное и доступное только большим компаниям. Внедрение моделей станет заметно проще: инфраструктура будет более стандартной, инструменты понятными, а входной порог ниже. То, что ещё несколько лет назад считалось экономически невыгодным, начнёт внедряться по умолчанию. ML появится в небольших продуктах, внутренних сервисах и процессах, где раньше на автоматизацию даже не смотрели.

Одновременно изменится и фокус ценности. Вопрос «какую модель выбрать» постепенно уйдёт на второй план. Гораздо важнее станет понимание того, какую именно задачу решает модель и какую пользу она приносит бизнесу. Выигрывать будут не те, кто знает больше алгоритмов или следит за последними статьями, а те, кто умеет работать с контекстом, данными и метриками, понимает ограничения системы и может объяснить результат не только инженерам, но и бизнесу.

Генеративный AI к этому моменту тоже перестанет быть чем-то отдельным. Он не станет новой профессией и не вытеснит классическое машинное обучение. Скорее, он органично встроится в него как инструмент, который усиливает специалиста. Модели будут помогать быстрее проверять гипотезы, писать код, анализировать данные и находить решения, но ответственность за постановку задачи, выбор подхода и принятие итоговых решений по-прежнему останется за человеком. Именно это и станет главным отличием сильных специалистов в 2026 году.

А что думаете вы? Напишите ваши прогнозы в комментариях, а через год мы соберем из этого отдельный пост и посмотрим, что из этого сбылось.
10👏7🔥4
Даже сейчас ML-инженеру недостаточно просто знать Python и обучать модели в ноутбуке. А через 3 года решающими станут системное мышление, умение работать с продакшн-ML и регулярное использование LLM как инструмента разработки.

У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) рассказывает, почему роль Data Scientist меняется, какие навыки дадут реальное преимущество на рынке и как мультимодальные модели повлияют на бизнес-задачи. Если вы уже чувствуете, что «делать модельки» больше не хватает, это видео поможет понять, куда двигаться дальше и как подготовиться к изменениям заранее.

Видео уже доступно на всех наших площадках, собрали для вас ссылки для удобства:
YouTube
Дзен
ВК
21👏7🔥5
Учимся на практике: решаем реальные ML-задачки

Это наша регулярная рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Шестая задача: оценка кредитного риска

Что нужно сделать:
Определить, вернёт ли человек кредит на основе его анкетных данных

Как можно сделать:
▪️ Использовать признаки: возраст, доход, кредитную история, занятость;
▪️ Использовать модели: Logistic Regression, CatBoost;

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/laotse/credit-risk-dataset

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
👍13
Как на самом деле нанимает бигтех

Этим инсайдом поделился Александр Дубейковский. Сейчас он работает в Авито, а до этого несколько лет был в Яндексе и видел процесс найма изнутри.

Представьте обычный день человека, который ищет первую работу в ML. Он выделяет целый рабочий день, открывает HeadHunter, LinkedIn, GetMatch и другие сервисы, где обычно размещают вакансии.

Он обновляет резюме и начинает рассылать отклики и всё делает верно, пишет трогательные сопроводительные письма, изучает информацию о компаниях, в которые отправляет отклики. Один, второй, десятый. К вечеру их уже около 100. Но на следующий день он видит:
«Большое спасибо за интерес к вакансии! К сожалению, сейчас мы не готовы пригласить вас на следующий этап. Ценим ваше внимание и будем рады получать ваши отклики на другие позиции»


Самая болезненная часть здесь даже не отказ, а ощущение, что «ленивые HR» даже не посмотрели на резюме, а сразу же отправили отказ. А ты вроде бы учишься, получаешь новые навыки и делаешь проекты, стараешься, но система как-будто специально игнорирует тебя.

Причина в том, что конкуренция сейчас огромная. На одну позицию джуна или стажера в крупной компании могут прилетать сотни резюме. Рекрутер физически не может глубоко разбирать каждый профиль, поэтому большинство откликов просто тонут в потоке.

Но хорошая новость в том, что шанс пробиться на собеседование есть, и он не связан с тем, сколько форм вы заполните. В бигтехе очень много людей нанимают не из потока откликов, а через рекомендации и внутренние сообщества. Именно поэтому так хорошо работают школы, стажировки и внутренние академии. Они создают доверие к кандидату еще до того, как он приходит к HR.

И этим можно и нужно пользоваться.

Например, вы хотите в крупную компанию. Вы находите их бесплатные митапы, вебинары, открытые лекции. Подключаетесь, задаете осмысленные вопросы, показываете, что вы в теме и что вам действительно интересно. Через такие активности вы знакомитесь с людьми из команды, и постепенно у вас появляется возможность не просто откликнуться, а быть замеченным.

Сразу предупредим, что это не быстрый, но реальный путь.

И если бы было нужно выделить одну ключевую мысль, то вот она:
В бигтех можно попасть и через большое количество откликов, но если вы сумеете попасть в поле зрения нужных людей, то путь до оффера у вас сократится в несколько раз


А как дела с поиском работы обстоят у вас?
9👍6🔥4
Как ускорить ML-модель в продакшене и почему скорость инференса напрямую влияет на деньги, пользователей и инфраструктурные затраты бизнеса?

Рассказывает на YouTube, в ВК и ДЗЕН Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) и показывает на практических примерах, почему модели «летают» в ноутбуке, но тормозят в реальных системах, и какие инженерные решения действительно дают прирост производительности.

Квантование, прунинг, дистилляция, батчинг, кэширование, аппаратное ускорение и ONNX – вы поймёте, как и когда применять каждый подход, какие компромиссы между скоростью и точностью неизбежны и как не потерять качество на критичных кейсах. Видео будет особенно полезно тем, кто хочет перейти от академического ML к реальным бизнес-системам и научиться делать модели быстрыми, экономичными и ценными для продукта.

Если вы еще не смотрели, собрали для вас ссылки:
YouTube
ВК
Дзен
96🔥4
Учимся на практике: решаем реальные ML-задачки

Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Шестая задача: прогнозирование температуры

Что нужно сделать: предсказать температуру на завтра на основе исторических данных

Как можно сделать:
▪️Использовать признаки: температуру ранее, влажность, день года;
▪️Добавить лаги и сезонные признаки (месяц, неделя);
▪️Попробовать: линейную регрессию с разными признаками, Random Forest, Prophet.

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/muthuj7/weather-dataset

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
👍5🔥5🤝4