NEW BOT Телеграм, страница

MLinside - школа ML

Даже сейчас ML-инженеру недостаточно просто знать Python и обучать модели в ноутбуке. А через 3 года решающими станут системное мышление, умение работать с продакшн-ML и регулярное использование LLM как инструмента разработки.

У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) рассказывает, почему роль Data Scientist меняется, какие навыки дадут реальное преимущество на рынке и как мультимодальные модели повлияют на бизнес-задачи. Если вы уже чувствуете, что «делать модельки» больше не хватает, это видео поможет понять, куда двигаться дальше и как подготовиться к изменениям заранее.

Видео уже доступно на всех наших площадках, собрали для вас ссылки для удобства:
YouTube
Дзен
ВК

❤21👏7🔥5

1.95K views07:40

MLinside - школа ML

Учимся на практике: решаем реальные ML-задачки

Это наша регулярная рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Шестая задача: оценка кредитного риска

Что нужно сделать:
Определить, вернёт ли человек кредит на основе его анкетных данных

Как можно сделать:
▪️ Использовать признаки: возраст, доход, кредитную история, занятость;
▪️ Использовать модели: Logistic Regression, CatBoost;

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/laotse/credit-risk-dataset

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

👍13

2.02K views06:59

MLinside - школа ML

Как на самом деле нанимает бигтех

Этим инсайдом поделился Александр Дубейковский. Сейчас он работает в Авито, а до этого несколько лет был в Яндексе и видел процесс найма изнутри.

Представьте обычный день человека, который ищет первую работу в ML. Он выделяет целый рабочий день, открывает HeadHunter, LinkedIn, GetMatch и другие сервисы, где обычно размещают вакансии.

Он обновляет резюме и начинает рассылать отклики и всё делает верно, пишет трогательные сопроводительные письма, изучает информацию о компаниях, в которые отправляет отклики. Один, второй, десятый. К вечеру их уже около 100. Но на следующий день он видит:

«Большое спасибо за интерес к вакансии! К сожалению, сейчас мы не готовы пригласить вас на следующий этап. Ценим ваше внимание и будем рады получать ваши отклики на другие позиции»

Самая болезненная часть здесь даже не отказ, а ощущение, что «ленивые HR» даже не посмотрели на резюме, а сразу же отправили отказ. А ты вроде бы учишься, получаешь новые навыки и делаешь проекты, стараешься, но система как-будто специально игнорирует тебя.

Причина в том, что конкуренция сейчас огромная. На одну позицию джуна или стажера в крупной компании могут прилетать сотни резюме. Рекрутер физически не может глубоко разбирать каждый профиль, поэтому большинство откликов просто тонут в потоке.

Но хорошая новость в том, что шанс пробиться на собеседование есть, и он не связан с тем, сколько форм вы заполните. В бигтехе очень много людей нанимают не из потока откликов, а через рекомендации и внутренние сообщества. Именно поэтому так хорошо работают школы, стажировки и внутренние академии. Они создают доверие к кандидату еще до того, как он приходит к HR.

И этим можно и нужно пользоваться.

Например, вы хотите в крупную компанию. Вы находите их бесплатные митапы, вебинары, открытые лекции. Подключаетесь, задаете осмысленные вопросы, показываете, что вы в теме и что вам действительно интересно. Через такие активности вы знакомитесь с людьми из команды, и постепенно у вас появляется возможность не просто откликнуться, а быть замеченным.

Сразу предупредим, что это не быстрый, но реальный путь.

И если бы было нужно выделить одну ключевую мысль, то вот она:

В бигтех можно попасть и через большое количество откликов, но если вы сумеете попасть в поле зрения нужных людей, то путь до оффера у вас сократится в несколько раз

А как дела с поиском работы обстоят у вас?

❤9👍6🔥4

1.96K views11:43

MLinside - школа ML

А как дела с поиском работы у вас?

Anonymous Poll

23%

Работаю и всё устраивает

❤3

407 voters1.87K views11:50

MLinside - школа ML

Как ускорить ML-модель в продакшене и почему скорость инференса напрямую влияет на деньги, пользователей и инфраструктурные затраты бизнеса?

Рассказывает на YouTube, в ВК и ДЗЕН Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) и показывает на практических примерах, почему модели «летают» в ноутбуке, но тормозят в реальных системах, и какие инженерные решения действительно дают прирост производительности.

Квантование, прунинг, дистилляция, батчинг, кэширование, аппаратное ускорение и ONNX – вы поймёте, как и когда применять каждый подход, какие компромиссы между скоростью и точностью неизбежны и как не потерять качество на критичных кейсах. Видео будет особенно полезно тем, кто хочет перейти от академического ML к реальным бизнес-системам и научиться делать модели быстрыми, экономичными и ценными для продукта.

Если вы еще не смотрели, собрали для вас ссылки:
YouTube
ВК
Дзен

❤9⚡6🔥4

1.89K views11:31

MLinside - школа ML

Учимся на практике: решаем реальные ML-задачки

Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Шестая задача: прогнозирование температуры

Что нужно сделать: предсказать температуру на завтра на основе исторических данных

Как можно сделать:
▪️Использовать признаки: температуру ранее, влажность, день года;
▪️Добавить лаги и сезонные признаки (месяц, неделя);
▪️Попробовать: линейную регрессию с разными признаками, Random Forest, Prophet.

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/muthuj7/weather-dataset

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

👍5🔥5🤝4

2K views07:22

MLinside - школа ML

Главная ошибка ML-специалиста сегодня

С появлением LLM код и прототипы стали появляться заметно быстрее. Рабочее решение можно собрать за вечер, а иногда и за несколько часов. Но всё чаще результат готов раньше, чем приходит понимание того, как это решение должно жить в продукте и какую ценность оно приносит бизнесу.

Именно здесь возникает главная ошибка, ведь так легко спутать скорость реализации с профессиональной ценностью.

LLM действительно ускоряют работу, снимают часть рутины и помогают быстрее дойти до рабочего варианта. Но они не думают за вас и не принимают решений за продукт.

На практике обычно это выглядит так: прототип выглядит убедительно, но не встраивается в продуктовый процесс. LLM используется не для ускорения понятных шагов, а чтобы закрыть неопределённость.

Проблема в том, что такие решения редко доходят до реального использования. Их сложно защитить перед командой и менеджментом. Вклад специалиста становится размытым, а рост по грейдам постепенно замедляется. В какой-то момент ценность человека начинает слабо отличаться от ценности самого инструмента.

Сильный ML-специалист сегодня мыслит иначе. Он начинает не с кода, а с формулировки задачи и эффекта, который нужен бизнесу. Использует LLM как ускоритель, а не как источник ответов. Проектирует систему целиком, заранее думая о данных, метриках, рисках и внедрении. И оценивает результат по тому, как оно работает в реальности.

И если можно было бы выделить одну ключевую мысль, то вот она:

LLM ускоряют руки. Ценность создаёт мышление. Именно это по-прежнему отличает сильного ML-специалиста от всех прочих.

А есть ли в ваших проектах задачи вы сознательно не используете LLM и почему?

👍8❤4👏3

2K views12:09

MLinside - школа ML

У вас есть данные, но нет разметки и кажется, что с ними невозможно работать?

На самом деле именно в таких данных часто скрывается наибольшая ценность и об этом рассказывает на YouTube, в ВК и ДЗЕН Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside). Вы узнаете, что такое обучение без учителя, как оно работает на практике и какие задачи позволяет решать, когда нет готовых меток или их слишком дорого создавать.

Если вы еще не смотрели, собрали для вас ссылки:
YouTube
ВК
Дзен

❤9

1.84K views07:39

MLinside - школа ML

Учимся на практике: решаем реальные ML-задачки

С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Седьмая задача: определение вида растения по параметрам почвы

Что нужно сделать: по составу почвы (pH, влажность, азот, калий) предсказать, какой вид растения лучше всего подойдёт

Как можно сделать:
▪️Использовать многоклассовую классификацию;
▪️Использовать признаки: химический состав, климат, глубина почвы;
▪️Модель: Random Forest, SVM.

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/atharvaingle/crop-recommendation-dataset

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

❤9

1.87K views07:21

MLinside - школа ML

Тот самый курс по машинному обучению, который прошли 200 000 человек

С 2016 по 2022 год специализация от МФТИ и Яндекса на Coursera была «входным билетом» в профессию для каждого второго топового дата-сайентиста в СНГ.

Но AI летит вперед слишком быстро. Сегодня просто знать «линейную регрессию» мало. Нужно понимать, как работают LLM, как строить AI-агентов и внедрять их в реальный бизнес.

Поэтому в начале года мы запустили специализацию «Искусственный интеллект и анализ данных». Это полный путь: от основ математики до самых свежих технологий 2026 года.

Что внутри курса?
Фундамент: Математика и Python;
Classic ML: Деревья, ансамбли, классические алгоритмы;
Deep Learning & LLM: Нейросети, трансформеры, RAG-системы и те самые AI-агенты;
Production: Как довести модель до работы в реальном бизнесе.

Почему этот курс уникален?
▪️Авторы-практики: Топы из Яндекса, МТС, Сбера, РСХБ. Люди, которые строили AI-отделы на сотни человек.
▪️Геймификация: Программа делится на «основной сюжет» (база) и «побочные квесты» (углубленные темы), которые постоянно обновляются.
▪️Доступность: Мы сохранили цену четырехлетней давности. Доступ ко всем знаниям по подписке от 5000 рублей в месяц.

Но сразу же предупреждаем – материал сложный, на уровне МФТИ, ВШЭ и ИТМО. Но те, кто справятся, станут элитой рынка.

Готовы начать свой путь в AI?

Переходите по ссылке, изучайте программу и выбирайте свой первый модуль. Обучение в удобном темпе уже ждет именно вас

❤8🔥7👍4

1.95K viewsedited 14:54

MLinside - школа ML

Сможете найти ошибку в коде?

Как дела, code-детективы? Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.

Вот фрагмент кода:

import pandas as pd init_df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # инициализируем датафрейм с исходными данными df_for_tests = init_df # делаем копию начального датафрейма чтобы на ней проводить наши тесты df_for_tests['A'] = 0 # изменяем один из элементов в датафрейме для тестов

Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.

Ответ мы опубликуем через пару дней, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside

1.98K viewsedited 14:08

MLinside - школа ML

В этом фрагменте кода

Anonymous Poll

196 voters1.91K views14:09

MLinside - школа ML

Сможете найти ошибку в коде? Как дела, code-детективы? Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа…

А вот и ответ на пост

В питоне есть 3 варианта создания переменной с тем же содержимым как у другой:

Присваивание - создает ссылку на тот же объект
Метод .copy() - создает копию объекта верхнего уровня, например может создать такой же список. Но если дан список списков, то такое копирование оставит ссылки на вложенные списки общими
deepcopy из библиотеки copy - полностью копирует объект со всем вложенным содержимым

Исправление:

import pandas as pd Import copy init_df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # инициализируем датафрейм с исходными данными df_for_tests = init_df.copy() # делаем копию начального датафрейма чтобы на ней проводить наши тесты df_for_tests['A'] = 0

❤8🔥6

1.96K viewsedited 13:55

MLinside - школа ML

Как думаете, может ли быть такое, что результатам A/B-теста нельзя верить?

Короткий ответ – да. В сложных системах пользователи и алгоритмы влияют друг на друга через общее состояние платформы, из-за чего классический A/B начинает ломаться и показывать ложный эффект.

У нас вышло видео, где Александр Дубейковский разбирает интерференцию, объясняет, почему метрики скачут, чем A/B отвечает на вопрос «кому стало лучше», а switchback — «как изменилась система в целом».

Если вы еще не смотрели, собрали для вас ссылки:
YouTube
Дзен
ВК

🔥10❤4

1.72K views15:33

MLinside - школа ML

Для многих путь в ML упирается в математику

Производные, матрицы, вероятности – знакомые слова, которые часто откладывают обучение «на потом». Мы хорошо знаем эту проблему, поэтому осенью запускали курс по математике и вот, первый поток завершился, делимся итогами.

Всего в обучении участвовали 15 человек, из них 9 стабильно сдавали домашние работы и активно работали на протяжении всего времени.

Преподаватель курса, Сергей Жестков, отметил два ключевых результата: сбалансированную программу и высокий уровень вовлечённости студентов. По его словам, участники не просто решали задачи правильно, но и внимательно относились к оформлению решений и подходу в целом, что для взрослой аудитории большая редкость и лучшая оценка работы курса.

Это подтверждают и отзывы студентов. Многие отмечали, что математика перестала восприниматься как что-то пугающее, а подача через примеры, аналогии и визуализации помогла разобраться в сложных темах и почувствовать уверенность. При этом участники честно делились тем, чего им хотелось бы больше – например, дополнительных связей с задачами ML и LLM, что мы обязательно учтём в следующих потоках.

В итоге первый поток показал главное: математика может быть понятной, интересной и полезной, если давать её в правильном объёме и нужном контексте.

❤17👍9🏆9💯2

1.92K views07:09

Дарья Тихонович – Staff DL инженер и лид в Яндексе RecSys RnD, ранее – лид направления нейросетевых рекомендаций в МТС. Мейнтейнер open-source фреймворка RecTools для рекомендательных систем, спикер профильных митапов и конференций, преподаватель и активный участник DS-комьюнити.

На YouTube у нас вышла первая часть подкаста с Дарьей. В выпуске говорим о переходе в Data Science из другой сферы, о пути от джуна до лида, о роли ментора в формировании инженерной культуры и о том, как open source помогает расти быстрее – и специалисту, и компании.

Собрали ссылки для удобства:
YouTube
Дзен
ВК

❤14

1.38K views14:29

MLinside - школа ML

Учимся на практике: решаем реальные ML-задачки

С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Восьмая задача: предсказание бот или человек

Что нужно сделать: Предсказать по статистике комментария и аккаунта сделавшего его бот это или человек

Как можно сделать:
▪️Закодировать категориальные переменные (например, OHE или target encoding)
▪️Обучить модель: линейную регрессию, случайный лес, разные бустинги
▪️Определить важность признаков, например, через SHAP
▪️Сделать разбиение по категории и сделать сравнение между ними

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/nudratabbas/the-dead-internet-theory-reddit-bot-vs-human
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1HUk8PuKKzueeyTh9Vt8nHT1u16Xtetft?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

❤5🔥4👍2

1.36K views09:18

MLinside - школа ML

Осенью мы проводили исследование аудитории и с тех пор многое изменилось

Мы запустили четвертый поток "Базы ML", запускали пробный курс по математике (результаты можно посмотреть в этом посте), а в новом году запустили курс специализация ИИ и анализ данных.

Впереди у нас множество планов и интересных новостей, но важно держать руку на пульсе и знать, чего хотите именно вы. От площадок, где вам удобно потреблять наш контент и тому, как вы относитесь к блокировкам площадок (планируете ли переезжать на другие платформы или будете оставаться там, где привычно и удобно), до более подробных вопросов про ML, математику и ваш уровень подготовки.

Исследование аудитории мы всегда проводим в 2 этапа:
1. Заполнение формы – https://forms.yandex.ru/u/698e28d390fa7b3dedfea105, в ней есть ряд вопросов, все с вариантами ответов. Займет минут 5 или меньше, но ваши ответы нам очень помогут.
2. Короткий созвон с теми, кто оставит контакт в конце формы. Обычно звонок занимает минут 20-30, мы задаем вам вопросы, а вы отвечаете так, как считаете нужным.

Вне зависимости от того, поучаствуете вы в первом, втором или обоих этапах – мы будем вам очень благодарны.

❤6👍2

1.53K viewsedited 15:53

Вторая часть подкаста с Дарьей Тихонович уже на канале

Во второй части Виктор и Дарья обсуждают практическую сторону работы в ML: как корректно оценивать рекомендательные системы, почему офлайн-метрики могут вводить в заблуждение и какую роль играет A/B-тестирование в принятии продуктовых решений.

Собрали для вас ссылки:
YouTube
Дзен
ВК

👍8

1.05K views09:01

MLinside - школа ML

Сможете найти ошибку в коде?

Обший сбор, code-детективы! У нас тут новый код с ошибкой. Или нет. Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.

Вот фрагмент кода:

Import numpy as np
a = [1, np.nan, 3, 4, np.nan]
for i in range(len(a)):
if a[i] == np.nan: # хотим заменить все значения нанов на 10
a[i] = 10
print(a)

1.15K views07:07

MLinside - школа ML

В посте выше есть ошибка в коде?

Anonymous Poll

200 voters1.25K views07:09

About

Blog

Apps

Platform