NEW BOT Телеграм, страница

MLinside - школа ML

Учимся на практике: решаем реальные ML-задачки

С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Восьмая задача: предсказание бот или человек

Что нужно сделать: Предсказать по статистике комментария и аккаунта сделавшего его бот это или человек

Как можно сделать:
▪️Закодировать категориальные переменные (например, OHE или target encoding)
▪️Обучить модель: линейную регрессию, случайный лес, разные бустинги
▪️Определить важность признаков, например, через SHAP
▪️Сделать разбиение по категории и сделать сравнение между ними

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/nudratabbas/the-dead-internet-theory-reddit-bot-vs-human
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1HUk8PuKKzueeyTh9Vt8nHT1u16Xtetft?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

❤5🔥4👍2

1.36K views09:18

MLinside - школа ML

Осенью мы проводили исследование аудитории и с тех пор многое изменилось

Мы запустили четвертый поток "Базы ML", запускали пробный курс по математике (результаты можно посмотреть в этом посте), а в новом году запустили курс специализация ИИ и анализ данных.

Впереди у нас множество планов и интересных новостей, но важно держать руку на пульсе и знать, чего хотите именно вы. От площадок, где вам удобно потреблять наш контент и тому, как вы относитесь к блокировкам площадок (планируете ли переезжать на другие платформы или будете оставаться там, где привычно и удобно), до более подробных вопросов про ML, математику и ваш уровень подготовки.

Исследование аудитории мы всегда проводим в 2 этапа:
1. Заполнение формы – https://forms.yandex.ru/u/698e28d390fa7b3dedfea105, в ней есть ряд вопросов, все с вариантами ответов. Займет минут 5 или меньше, но ваши ответы нам очень помогут.
2. Короткий созвон с теми, кто оставит контакт в конце формы. Обычно звонок занимает минут 20-30, мы задаем вам вопросы, а вы отвечаете так, как считаете нужным.

Вне зависимости от того, поучаствуете вы в первом, втором или обоих этапах – мы будем вам очень благодарны.

❤6👍2

1.53K viewsedited 15:53

Вторая часть подкаста с Дарьей Тихонович уже на канале

Во второй части Виктор и Дарья обсуждают практическую сторону работы в ML: как корректно оценивать рекомендательные системы, почему офлайн-метрики могут вводить в заблуждение и какую роль играет A/B-тестирование в принятии продуктовых решений.

Собрали для вас ссылки:
YouTube
Дзен
ВК

👍8

1.05K views09:01

MLinside - школа ML

Сможете найти ошибку в коде?

Обший сбор, code-детективы! У нас тут новый код с ошибкой. Или нет. Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.

Вот фрагмент кода:

Import numpy as np
a = [1, np.nan, 3, 4, np.nan]
for i in range(len(a)):
if a[i] == np.nan: # хотим заменить все значения нанов на 10
a[i] = 10
print(a)

Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.

Ответ мы опубликуем через пару дней, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside

1.15K views07:07

MLinside - школа ML

В посте выше есть ошибка в коде?

Anonymous Poll

200 voters1.25K views07:09

MLinside - школа ML

Сможете найти ошибку в коде? Обший сбор, code-детективы! У нас тут новый код с ошибкой. Или нет. Да, это наша регулярная рубрика Code Detective. Тут мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но помните, что ошибки может и не быть. Так что…

А вот и ответ на пост. Да, в коде есть ошибка.

Объяснение:
Наны не равны между собой (по стандарту IEEE 754), даже сам объект с значением Нан не равен себе же. Код:
a = np.nan
print(a == a)
Выведет False
то есть == использовать нельзя, как вариант можно использовать оператор is

Исправление:

Import numpy as np a = [1, np.nan, 3, 4, np.nan] for i in range(len(a)): if a[i] is np.nan: a[i] = 10 print(a)

#CodeDetective_MLinside

❤1

739 views08:22

MLinside - школа ML

Знакомим вас с преподавателями специализации AI и анализ данных

Это люди, которые строили ML-сервисы в Яндексе, управляли сотнями Data Scientists в МТС, запускали AI в банках. И на курсе они рассказывают о том, что реально работает в индустрии.

Почитать подробнее про программу специализации можно на сайте. Сейчас там доступно 2 больших блока на 100+ уроков, а подписка стоит от 5 000 рублей в месяц.

❤7🔥4👍2👎1

619 views14:32

About

Blog

Apps

Platform