Даже сейчас ML-инженеру недостаточно просто знать Python и обучать модели в ноутбуке. А через 3 года решающими станут системное мышление, умение работать с продакшн-ML и регулярное использование LLM как инструмента разработки.
У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) рассказывает, почему роль Data Scientist меняется, какие навыки дадут реальное преимущество на рынке и как мультимодальные модели повлияют на бизнес-задачи. Если вы уже чувствуете, что «делать модельки» больше не хватает, это видео поможет понять, куда двигаться дальше и как подготовиться к изменениям заранее.
Видео уже доступно на всех наших площадках, собрали для вас ссылки для удобства:
YouTube
Дзен
ВК
У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) рассказывает, почему роль Data Scientist меняется, какие навыки дадут реальное преимущество на рынке и как мультимодальные модели повлияют на бизнес-задачи. Если вы уже чувствуете, что «делать модельки» больше не хватает, это видео поможет понять, куда двигаться дальше и как подготовиться к изменениям заранее.
Видео уже доступно на всех наших площадках, собрали для вас ссылки для удобства:
YouTube
Дзен
ВК
❤21👏7🔥5
Учимся на практике: решаем реальные ML-задачки
Это наша регулярная рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Шестая задача: оценка кредитного риска
Что нужно сделать:
Определить, вернёт ли человек кредит на основе его анкетных данных
Как можно сделать:
▪️ Использовать признаки: возраст, доход, кредитную история, занятость;
▪️ Использовать модели: Logistic Regression, CatBoost;
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/laotse/credit-risk-dataset
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
Это наша регулярная рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Шестая задача: оценка кредитного риска
Что нужно сделать:
Определить, вернёт ли человек кредит на основе его анкетных данных
Как можно сделать:
▪️ Использовать признаки: возраст, доход, кредитную история, занятость;
▪️ Использовать модели: Logistic Regression, CatBoost;
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/laotse/credit-risk-dataset
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
👍13
Как на самом деле нанимает бигтех
Этим инсайдом поделился Александр Дубейковский. Сейчас он работает в Авито, а до этого несколько лет был в Яндексе и видел процесс найма изнутри.
Представьте обычный день человека, который ищет первую работу в ML. Он выделяет целый рабочий день, открывает HeadHunter, LinkedIn, GetMatch и другие сервисы, где обычно размещают вакансии.
Он обновляет резюме и начинает рассылать отклики и всё делает верно, пишет трогательные сопроводительные письма, изучает информацию о компаниях, в которые отправляет отклики. Один, второй, десятый. К вечеру их уже около 100. Но на следующий день он видит:
Самая болезненная часть здесь даже не отказ, а ощущение, что «ленивые HR» даже не посмотрели на резюме, а сразу же отправили отказ. А ты вроде бы учишься, получаешь новые навыки и делаешь проекты, стараешься, но система как-будто специально игнорирует тебя.
Причина в том, что конкуренция сейчас огромная. На одну позицию джуна или стажера в крупной компании могут прилетать сотни резюме. Рекрутер физически не может глубоко разбирать каждый профиль, поэтому большинство откликов просто тонут в потоке.
Но хорошая новость в том, что шанс пробиться на собеседование есть, и он не связан с тем, сколько форм вы заполните. В бигтехе очень много людей нанимают не из потока откликов, а через рекомендации и внутренние сообщества. Именно поэтому так хорошо работают школы, стажировки и внутренние академии. Они создают доверие к кандидату еще до того, как он приходит к HR.
И этим можно и нужно пользоваться.
Например, вы хотите в крупную компанию. Вы находите их бесплатные митапы, вебинары, открытые лекции. Подключаетесь, задаете осмысленные вопросы, показываете, что вы в теме и что вам действительно интересно. Через такие активности вы знакомитесь с людьми из команды, и постепенно у вас появляется возможность не просто откликнуться, а быть замеченным.
Сразу предупредим, что это не быстрый, но реальный путь.
И если бы было нужно выделить одну ключевую мысль, то вот она:
А как дела с поиском работы обстоят у вас?
Этим инсайдом поделился Александр Дубейковский. Сейчас он работает в Авито, а до этого несколько лет был в Яндексе и видел процесс найма изнутри.
Представьте обычный день человека, который ищет первую работу в ML. Он выделяет целый рабочий день, открывает HeadHunter, LinkedIn, GetMatch и другие сервисы, где обычно размещают вакансии.
Он обновляет резюме и начинает рассылать отклики и всё делает верно, пишет трогательные сопроводительные письма, изучает информацию о компаниях, в которые отправляет отклики. Один, второй, десятый. К вечеру их уже около 100. Но на следующий день он видит:
«Большое спасибо за интерес к вакансии! К сожалению, сейчас мы не готовы пригласить вас на следующий этап. Ценим ваше внимание и будем рады получать ваши отклики на другие позиции»
Самая болезненная часть здесь даже не отказ, а ощущение, что «ленивые HR» даже не посмотрели на резюме, а сразу же отправили отказ. А ты вроде бы учишься, получаешь новые навыки и делаешь проекты, стараешься, но система как-будто специально игнорирует тебя.
Причина в том, что конкуренция сейчас огромная. На одну позицию джуна или стажера в крупной компании могут прилетать сотни резюме. Рекрутер физически не может глубоко разбирать каждый профиль, поэтому большинство откликов просто тонут в потоке.
Но хорошая новость в том, что шанс пробиться на собеседование есть, и он не связан с тем, сколько форм вы заполните. В бигтехе очень много людей нанимают не из потока откликов, а через рекомендации и внутренние сообщества. Именно поэтому так хорошо работают школы, стажировки и внутренние академии. Они создают доверие к кандидату еще до того, как он приходит к HR.
И этим можно и нужно пользоваться.
Например, вы хотите в крупную компанию. Вы находите их бесплатные митапы, вебинары, открытые лекции. Подключаетесь, задаете осмысленные вопросы, показываете, что вы в теме и что вам действительно интересно. Через такие активности вы знакомитесь с людьми из команды, и постепенно у вас появляется возможность не просто откликнуться, а быть замеченным.
Сразу предупредим, что это не быстрый, но реальный путь.
И если бы было нужно выделить одну ключевую мысль, то вот она:
В бигтех можно попасть и через большое количество откликов, но если вы сумеете попасть в поле зрения нужных людей, то путь до оффера у вас сократится в несколько раз
А как дела с поиском работы обстоят у вас?
❤9👍6🔥4
А как дела с поиском работы у вас?
Anonymous Poll
23%
Работаю и всё устраивает
20%
Посматриваю вакансии
22%
В активном поиске
21%
Уже отчаялся
14%
Что такое работа?
❤3
Как ускорить ML-модель в продакшене и почему скорость инференса напрямую влияет на деньги, пользователей и инфраструктурные затраты бизнеса?
Рассказывает на YouTube, в ВК и ДЗЕН Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) и показывает на практических примерах, почему модели «летают» в ноутбуке, но тормозят в реальных системах, и какие инженерные решения действительно дают прирост производительности.
Квантование, прунинг, дистилляция, батчинг, кэширование, аппаратное ускорение и ONNX – вы поймёте, как и когда применять каждый подход, какие компромиссы между скоростью и точностью неизбежны и как не потерять качество на критичных кейсах. Видео будет особенно полезно тем, кто хочет перейти от академического ML к реальным бизнес-системам и научиться делать модели быстрыми, экономичными и ценными для продукта.
Если вы еще не смотрели, собрали для вас ссылки:
YouTube
ВК
Дзен
Рассказывает на YouTube, в ВК и ДЗЕН Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) и показывает на практических примерах, почему модели «летают» в ноутбуке, но тормозят в реальных системах, и какие инженерные решения действительно дают прирост производительности.
Квантование, прунинг, дистилляция, батчинг, кэширование, аппаратное ускорение и ONNX – вы поймёте, как и когда применять каждый подход, какие компромиссы между скоростью и точностью неизбежны и как не потерять качество на критичных кейсах. Видео будет особенно полезно тем, кто хочет перейти от академического ML к реальным бизнес-системам и научиться делать модели быстрыми, экономичными и ценными для продукта.
Если вы еще не смотрели, собрали для вас ссылки:
YouTube
ВК
Дзен
❤9⚡6🔥4
Учимся на практике: решаем реальные ML-задачки
Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Шестая задача: прогнозирование температуры
Что нужно сделать: предсказать температуру на завтра на основе исторических данных
Как можно сделать:
▪️Использовать признаки: температуру ранее, влажность, день года;
▪️Добавить лаги и сезонные признаки (месяц, неделя);
▪️Попробовать: линейную регрессию с разными признаками, Random Forest, Prophet.
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/muthuj7/weather-dataset
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Шестая задача: прогнозирование температуры
Что нужно сделать: предсказать температуру на завтра на основе исторических данных
Как можно сделать:
▪️Использовать признаки: температуру ранее, влажность, день года;
▪️Добавить лаги и сезонные признаки (месяц, неделя);
▪️Попробовать: линейную регрессию с разными признаками, Random Forest, Prophet.
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/muthuj7/weather-dataset
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
👍5🔥5🤝4
Главная ошибка ML-специалиста сегодня
С появлением LLM код и прототипы стали появляться заметно быстрее. Рабочее решение можно собрать за вечер, а иногда и за несколько часов. Но всё чаще результат готов раньше, чем приходит понимание того, как это решение должно жить в продукте и какую ценность оно приносит бизнесу.
Именно здесь возникает главная ошибка, ведь так легко спутать скорость реализации с профессиональной ценностью.
LLM действительно ускоряют работу, снимают часть рутины и помогают быстрее дойти до рабочего варианта. Но они не думают за вас и не принимают решений за продукт.
На практике обычно это выглядит так: прототип выглядит убедительно, но не встраивается в продуктовый процесс. LLM используется не для ускорения понятных шагов, а чтобы закрыть неопределённость.
Проблема в том, что такие решения редко доходят до реального использования. Их сложно защитить перед командой и менеджментом. Вклад специалиста становится размытым, а рост по грейдам постепенно замедляется. В какой-то момент ценность человека начинает слабо отличаться от ценности самого инструмента.
Сильный ML-специалист сегодня мыслит иначе. Он начинает не с кода, а с формулировки задачи и эффекта, который нужен бизнесу. Использует LLM как ускоритель, а не как источник ответов. Проектирует систему целиком, заранее думая о данных, метриках, рисках и внедрении. И оценивает результат по тому, как оно работает в реальности.
И если можно было бы выделить одну ключевую мысль, то вот она:
А есть ли в ваших проектах задачи вы сознательно не используете LLM и почему?
С появлением LLM код и прототипы стали появляться заметно быстрее. Рабочее решение можно собрать за вечер, а иногда и за несколько часов. Но всё чаще результат готов раньше, чем приходит понимание того, как это решение должно жить в продукте и какую ценность оно приносит бизнесу.
Именно здесь возникает главная ошибка, ведь так легко спутать скорость реализации с профессиональной ценностью.
LLM действительно ускоряют работу, снимают часть рутины и помогают быстрее дойти до рабочего варианта. Но они не думают за вас и не принимают решений за продукт.
На практике обычно это выглядит так: прототип выглядит убедительно, но не встраивается в продуктовый процесс. LLM используется не для ускорения понятных шагов, а чтобы закрыть неопределённость.
Проблема в том, что такие решения редко доходят до реального использования. Их сложно защитить перед командой и менеджментом. Вклад специалиста становится размытым, а рост по грейдам постепенно замедляется. В какой-то момент ценность человека начинает слабо отличаться от ценности самого инструмента.
Сильный ML-специалист сегодня мыслит иначе. Он начинает не с кода, а с формулировки задачи и эффекта, который нужен бизнесу. Использует LLM как ускоритель, а не как источник ответов. Проектирует систему целиком, заранее думая о данных, метриках, рисках и внедрении. И оценивает результат по тому, как оно работает в реальности.
И если можно было бы выделить одну ключевую мысль, то вот она:
LLM ускоряют руки. Ценность создаёт мышление. Именно это по-прежнему отличает сильного ML-специалиста от всех прочих.
А есть ли в ваших проектах задачи вы сознательно не используете LLM и почему?
👍8❤4👏3
У вас есть данные, но нет разметки и кажется, что с ними невозможно работать?
На самом деле именно в таких данных часто скрывается наибольшая ценность и об этом рассказывает на YouTube, в ВК и ДЗЕН Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside). Вы узнаете, что такое обучение без учителя, как оно работает на практике и какие задачи позволяет решать, когда нет готовых меток или их слишком дорого создавать.
Если вы еще не смотрели, собрали для вас ссылки:
YouTube
ВК
Дзен
На самом деле именно в таких данных часто скрывается наибольшая ценность и об этом рассказывает на YouTube, в ВК и ДЗЕН Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside). Вы узнаете, что такое обучение без учителя, как оно работает на практике и какие задачи позволяет решать, когда нет готовых меток или их слишком дорого создавать.
Если вы еще не смотрели, собрали для вас ссылки:
YouTube
ВК
Дзен
❤9
Учимся на практике: решаем реальные ML-задачки
С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Седьмая задача: определение вида растения по параметрам почвы
Что нужно сделать: по составу почвы (pH, влажность, азот, калий) предсказать, какой вид растения лучше всего подойдёт
Как можно сделать:
▪️Использовать многоклассовую классификацию;
▪️Использовать признаки: химический состав, климат, глубина почвы;
▪️Модель: Random Forest, SVM.
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/atharvaingle/crop-recommendation-dataset
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Седьмая задача: определение вида растения по параметрам почвы
Что нужно сделать: по составу почвы (pH, влажность, азот, калий) предсказать, какой вид растения лучше всего подойдёт
Как можно сделать:
▪️Использовать многоклассовую классификацию;
▪️Использовать признаки: химический состав, климат, глубина почвы;
▪️Модель: Random Forest, SVM.
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/atharvaingle/crop-recommendation-dataset
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
❤9
Тот самый курс по машинному обучению, который прошли 200 000 человек
С 2016 по 2022 год специализация от МФТИ и Яндекса на Coursera была «входным билетом» в профессию для каждого второго топового дата-сайентиста в СНГ.
Но AI летит вперед слишком быстро. Сегодня просто знать «линейную регрессию» мало. Нужно понимать, как работают LLM, как строить AI-агентов и внедрять их в реальный бизнес.
Поэтому в начале года мы запустили специализацию «Искусственный интеллект и анализ данных». Это полный путь: от основ математики до самых свежих технологий 2026 года.
Что внутри курса?
Фундамент: Математика и Python;
Classic ML: Деревья, ансамбли, классические алгоритмы;
Deep Learning & LLM: Нейросети, трансформеры, RAG-системы и те самые AI-агенты;
Production: Как довести модель до работы в реальном бизнесе.
Почему этот курс уникален?
▪️Авторы-практики: Топы из Яндекса, МТС, Сбера, РСХБ. Люди, которые строили AI-отделы на сотни человек.
▪️Геймификация: Программа делится на «основной сюжет» (база) и «побочные квесты» (углубленные темы), которые постоянно обновляются.
▪️Доступность: Мы сохранили цену четырехлетней давности. Доступ ко всем знаниям по подписке от 5000 рублей в месяц.
Но сразу же предупреждаем – материал сложный, на уровне МФТИ, ВШЭ и ИТМО. Но те, кто справятся, станут элитой рынка.
Готовы начать свой путь в AI?
Переходите по ссылке, изучайте программу и выбирайте свой первый модуль. Обучение в удобном темпе уже ждет именно вас
С 2016 по 2022 год специализация от МФТИ и Яндекса на Coursera была «входным билетом» в профессию для каждого второго топового дата-сайентиста в СНГ.
Но AI летит вперед слишком быстро. Сегодня просто знать «линейную регрессию» мало. Нужно понимать, как работают LLM, как строить AI-агентов и внедрять их в реальный бизнес.
Поэтому в начале года мы запустили специализацию «Искусственный интеллект и анализ данных». Это полный путь: от основ математики до самых свежих технологий 2026 года.
Что внутри курса?
Фундамент: Математика и Python;
Classic ML: Деревья, ансамбли, классические алгоритмы;
Deep Learning & LLM: Нейросети, трансформеры, RAG-системы и те самые AI-агенты;
Production: Как довести модель до работы в реальном бизнесе.
Почему этот курс уникален?
▪️Авторы-практики: Топы из Яндекса, МТС, Сбера, РСХБ. Люди, которые строили AI-отделы на сотни человек.
▪️Геймификация: Программа делится на «основной сюжет» (база) и «побочные квесты» (углубленные темы), которые постоянно обновляются.
▪️Доступность: Мы сохранили цену четырехлетней давности. Доступ ко всем знаниям по подписке от 5000 рублей в месяц.
Но сразу же предупреждаем – материал сложный, на уровне МФТИ, ВШЭ и ИТМО. Но те, кто справятся, станут элитой рынка.
Готовы начать свой путь в AI?
Переходите по ссылке, изучайте программу и выбирайте свой первый модуль. Обучение в удобном темпе уже ждет именно вас
❤8🔥7👍4
Сможете найти ошибку в коде?
Как дела, code-детективы? Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.
Вот фрагмент кода:
Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.
Ответ мы опубликуем через пару дней, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
Как дела, code-детективы? Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.
Вот фрагмент кода:
import pandas as pd
init_df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # инициализируем датафрейм с исходными данными
df_for_tests = init_df # делаем копию начального датафрейма чтобы на ней проводить наши тесты
df_for_tests['A'] = 0 # изменяем один из элементов в датафрейме для тестов
Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.
Ответ мы опубликуем через пару дней, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
MLinside - школа ML
Сможете найти ошибку в коде? Как дела, code-детективы? Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа…
А вот и ответ на пост
В питоне есть 3 варианта создания переменной с тем же содержимым как у другой:
Исправление:
В питоне есть 3 варианта создания переменной с тем же содержимым как у другой:
Присваивание - создает ссылку на тот же объект
Метод .copy() - создает копию объекта верхнего уровня, например может создать такой же список. Но если дан список списков, то такое копирование оставит ссылки на вложенные списки общими
deepcopy из библиотеки copy - полностью копирует объект со всем вложенным содержимым
Исправление:
import pandas as pd
Import copy
init_df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # инициализируем датафрейм с исходными данными
df_for_tests = init_df.copy() # делаем копию начального датафрейма чтобы на ней проводить наши тесты
df_for_tests['A'] = 0❤8🔥6
Как думаете, может ли быть такое, что результатам A/B-теста нельзя верить?
Короткий ответ – да. В сложных системах пользователи и алгоритмы влияют друг на друга через общее состояние платформы, из-за чего классический A/B начинает ломаться и показывать ложный эффект.
У нас вышло видео, где Александр Дубейковский разбирает интерференцию, объясняет, почему метрики скачут, чем A/B отвечает на вопрос «кому стало лучше», а switchback — «как изменилась система в целом».
Если вы еще не смотрели, собрали для вас ссылки:
YouTube
Дзен
ВК
Короткий ответ – да. В сложных системах пользователи и алгоритмы влияют друг на друга через общее состояние платформы, из-за чего классический A/B начинает ломаться и показывать ложный эффект.
У нас вышло видео, где Александр Дубейковский разбирает интерференцию, объясняет, почему метрики скачут, чем A/B отвечает на вопрос «кому стало лучше», а switchback — «как изменилась система в целом».
Если вы еще не смотрели, собрали для вас ссылки:
YouTube
Дзен
ВК
🔥10❤4
Для многих путь в ML упирается в математику
Производные, матрицы, вероятности – знакомые слова, которые часто откладывают обучение «на потом». Мы хорошо знаем эту проблему, поэтому осенью запускали курс по математике и вот, первый поток завершился, делимся итогами.
Всего в обучении участвовали 15 человек, из них 9 стабильно сдавали домашние работы и активно работали на протяжении всего времени.
Преподаватель курса, Сергей Жестков, отметил два ключевых результата: сбалансированную программу и высокий уровень вовлечённости студентов. По его словам, участники не просто решали задачи правильно, но и внимательно относились к оформлению решений и подходу в целом, что для взрослой аудитории большая редкость и лучшая оценка работы курса.
Это подтверждают и отзывы студентов. Многие отмечали, что математика перестала восприниматься как что-то пугающее, а подача через примеры, аналогии и визуализации помогла разобраться в сложных темах и почувствовать уверенность. При этом участники честно делились тем, чего им хотелось бы больше – например, дополнительных связей с задачами ML и LLM, что мы обязательно учтём в следующих потоках.
В итоге первый поток показал главное: математика может быть понятной, интересной и полезной, если давать её в правильном объёме и нужном контексте.
Производные, матрицы, вероятности – знакомые слова, которые часто откладывают обучение «на потом». Мы хорошо знаем эту проблему, поэтому осенью запускали курс по математике и вот, первый поток завершился, делимся итогами.
Всего в обучении участвовали 15 человек, из них 9 стабильно сдавали домашние работы и активно работали на протяжении всего времени.
Преподаватель курса, Сергей Жестков, отметил два ключевых результата: сбалансированную программу и высокий уровень вовлечённости студентов. По его словам, участники не просто решали задачи правильно, но и внимательно относились к оформлению решений и подходу в целом, что для взрослой аудитории большая редкость и лучшая оценка работы курса.
Это подтверждают и отзывы студентов. Многие отмечали, что математика перестала восприниматься как что-то пугающее, а подача через примеры, аналогии и визуализации помогла разобраться в сложных темах и почувствовать уверенность. При этом участники честно делились тем, чего им хотелось бы больше – например, дополнительных связей с задачами ML и LLM, что мы обязательно учтём в следующих потоках.
В итоге первый поток показал главное: математика может быть понятной, интересной и полезной, если давать её в правильном объёме и нужном контексте.
❤17👍9🏆9💯2
Media is too big
VIEW IN TELEGRAM
Дарья Тихонович – Staff DL инженер и лид в Яндексе RecSys RnD, ранее – лид направления нейросетевых рекомендаций в МТС. Мейнтейнер open-source фреймворка RecTools для рекомендательных систем, спикер профильных митапов и конференций, преподаватель и активный участник DS-комьюнити.
На YouTube у нас вышла первая часть подкаста с Дарьей. В выпуске говорим о переходе в Data Science из другой сферы, о пути от джуна до лида, о роли ментора в формировании инженерной культуры и о том, как open source помогает расти быстрее – и специалисту, и компании.
Собрали ссылки для удобства:
YouTube
Дзен
ВК
На YouTube у нас вышла первая часть подкаста с Дарьей. В выпуске говорим о переходе в Data Science из другой сферы, о пути от джуна до лида, о роли ментора в формировании инженерной культуры и о том, как open source помогает расти быстрее – и специалисту, и компании.
Собрали ссылки для удобства:
YouTube
Дзен
ВК
❤14
Учимся на практике: решаем реальные ML-задачки
С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Восьмая задача: предсказание бот или человек
Что нужно сделать: Предсказать по статистике комментария и аккаунта сделавшего его бот это или человек
Как можно сделать:
▪️Закодировать категориальные переменные (например, OHE или target encoding)
▪️Обучить модель: линейную регрессию, случайный лес, разные бустинги
▪️Определить важность признаков, например, через SHAP
▪️Сделать разбиение по категории и сделать сравнение между ними
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/nudratabbas/the-dead-internet-theory-reddit-bot-vs-human
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1HUk8PuKKzueeyTh9Vt8nHT1u16Xtetft?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Восьмая задача: предсказание бот или человек
Что нужно сделать: Предсказать по статистике комментария и аккаунта сделавшего его бот это или человек
Как можно сделать:
▪️Закодировать категориальные переменные (например, OHE или target encoding)
▪️Обучить модель: линейную регрессию, случайный лес, разные бустинги
▪️Определить важность признаков, например, через SHAP
▪️Сделать разбиение по категории и сделать сравнение между ними
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/nudratabbas/the-dead-internet-theory-reddit-bot-vs-human
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1HUk8PuKKzueeyTh9Vt8nHT1u16Xtetft?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
❤5🔥4👍2
Осенью мы проводили исследование аудитории и с тех пор многое изменилось
Мы запустили четвертый поток "Базы ML", запускали пробный курс по математике (результаты можно посмотреть в этом посте), а в новом году запустили курс специализация ИИ и анализ данных.
Впереди у нас множество планов и интересных новостей, но важно держать руку на пульсе и знать, чего хотите именно вы. От площадок, где вам удобно потреблять наш контент и тому, как вы относитесь к блокировкам площадок (планируете ли переезжать на другие платформы или будете оставаться там, где привычно и удобно), до более подробных вопросов про ML, математику и ваш уровень подготовки.
Исследование аудитории мы всегда проводим в 2 этапа:
1. Заполнение формы – https://forms.yandex.ru/u/698e28d390fa7b3dedfea105, в ней есть ряд вопросов, все с вариантами ответов. Займет минут 5 или меньше, но ваши ответы нам очень помогут.
2. Короткий созвон с теми, кто оставит контакт в конце формы. Обычно звонок занимает минут 20-30, мы задаем вам вопросы, а вы отвечаете так, как считаете нужным.
Вне зависимости от того, поучаствуете вы в первом, втором или обоих этапах – мы будем вам очень благодарны.
Мы запустили четвертый поток "Базы ML", запускали пробный курс по математике (результаты можно посмотреть в этом посте), а в новом году запустили курс специализация ИИ и анализ данных.
Впереди у нас множество планов и интересных новостей, но важно держать руку на пульсе и знать, чего хотите именно вы. От площадок, где вам удобно потреблять наш контент и тому, как вы относитесь к блокировкам площадок (планируете ли переезжать на другие платформы или будете оставаться там, где привычно и удобно), до более подробных вопросов про ML, математику и ваш уровень подготовки.
Исследование аудитории мы всегда проводим в 2 этапа:
1. Заполнение формы – https://forms.yandex.ru/u/698e28d390fa7b3dedfea105, в ней есть ряд вопросов, все с вариантами ответов. Займет минут 5 или меньше, но ваши ответы нам очень помогут.
2. Короткий созвон с теми, кто оставит контакт в конце формы. Обычно звонок занимает минут 20-30, мы задаем вам вопросы, а вы отвечаете так, как считаете нужным.
Вне зависимости от того, поучаствуете вы в первом, втором или обоих этапах – мы будем вам очень благодарны.
❤6👍2
Media is too big
VIEW IN TELEGRAM
Вторая часть подкаста с Дарьей Тихонович уже на канале
Во второй части Виктор и Дарья обсуждают практическую сторону работы в ML: как корректно оценивать рекомендательные системы, почему офлайн-метрики могут вводить в заблуждение и какую роль играет A/B-тестирование в принятии продуктовых решений.
Собрали для вас ссылки:
YouTube
Дзен
ВК
Во второй части Виктор и Дарья обсуждают практическую сторону работы в ML: как корректно оценивать рекомендательные системы, почему офлайн-метрики могут вводить в заблуждение и какую роль играет A/B-тестирование в принятии продуктовых решений.
Собрали для вас ссылки:
YouTube
Дзен
ВК
👍8
Сможете найти ошибку в коде?
Обший сбор, code-детективы! У нас тут новый код с ошибкой. Или нет. Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.
Вот фрагмент кода:
Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.
Ответ мы опубликуем через пару дней, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
Обший сбор, code-детективы! У нас тут новый код с ошибкой. Или нет. Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.
Вот фрагмент кода:
Import numpy as np
a = [1, np.nan, 3, 4, np.nan]
for i in range(len(a)):
if a[i] == np.nan: # хотим заменить все значения нанов на 10
a[i] = 10
print(a)
Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.
Ответ мы опубликуем через пару дней, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside