Какое из перечисленных утверждений о градиентном бустинге верно?
Anonymous Quiz
5%
Градиентный бустинг строит модели независимо друг от друга
89%
Градиентный бустинг минимизирует функцию ошибки, учитывая ошибки предыдущих алгоритмов
2%
Градиентный бустинг применяется только для категориальных данных
4%
Градиентный бустинг всегда использует деревья решений
Какая метрика качества используется для оценки регрессионных моделей?
Anonymous Quiz
7%
ROC AUC
6%
Точность (Accuracy)
3%
Полнота (Recall)
84%
Среднеквадратичная ошибка (MSE)
Что означает термин "валидация" в машинном обучении?
Anonymous Quiz
15%
Проверка качества модели на данных, которые использовались для обучения
79%
Проверка качества модели на новых, не использованных в обучении данных
5%
Подбор гиперпараметров модели
1%
Создание новых признаков для модели
5 способов упростить себе погружение в Data Science и ML 📚
Освоение Data Science и машинного обучения — это марафон, а не спринт. Здесь нет волшебной таблетки, которая позволит быстро войти в сферу без усилий. Но если следовать определенным принципам, можно значительно ускорить процесс и избежать многих ошибок.
5 ключевых способов, которые помогут вам быстрее разобраться в Data Science/ML и построить успешную карьеру. 👇
1️⃣ Осознайте: это требует времени
Машинное обучение, программирование, математика — всё это невозможно освоить за одну ночь. Вам придется много учиться, пробовать, ошибаться и снова учиться. Это нормально, если у вас что-то не получается после нескольких часов разборов. Это не значит, что вам не дано, это значит, что нужно продолжать работать.
Часто новички бросают обучение, потому что у них не получается с первого раза. Но это нормально! ML — сложная сфера, требующая терпения. Если вы будете стабильно уделять время обучению, прогресс неизбежно придет.
2️⃣ Одержимость Data Science — ваш главный союзник
Чтобы достичь успеха, вы должны быть готовы идти до конца, даже если сейчас что-то не получается.
📌 Поставили цель — разберитесь в теме до конца.
📌 Начали курс — завершите его, даже если сложно.
📌 Проходите собеседования — не останавливайтесь, пока не получите оффер.
Некоторые жалуются: «Я уже три месяца ищу работу, но не могу устроиться». Три месяца — это средний срок для такой сложной профессии! Многие специалисты тратили годы на развитие карьеры. Вход в ML — это не быстрый процесс, и даже после первой работы обучение не заканчивается.
3️⃣ Рефлексируйте: анализируйте, как учитесь, и оптимизируйте процесс
Как вы изучаете материалы? Как можете делать это быстрее?
Например:
✔️ Вы осваиваете Python. Учитесь сразу работать в удобных инструментах — это сэкономит вам часы работы.
✔️ Учите математику. Не заучивайте формулы, а разбирайтесь в их смысле. Формулы — это язык, а не просто набор символов. Понимайте их взаимосвязь, и знания останутся с вами надолго.
4️⃣ Читать документацию — это must-have
Читайте официальную документацию библиотек, с которыми работаете (Pandas, NumPy, Scikit-learn, TensorFlow, PyTorch и др.)
Чем раньше вы привыкнете читать документацию, тем быстрее будете решать проблемы и разбираться в коде.
Те, кто умеют работать с документацией, решают задачи намного быстрее. Этот навык упростит вашу работу и сэкономит вам кучу времени в будущем.
5️⃣ Машинное обучение невозможно «выучить» раз и навсегда
Data Science, AI, ML развиваются стремительно. То, что вы выучили сегодня, может устареть через год. Поэтому обучение должно быть постоянным.
📌 Следите за новыми исследованиями, статьями, обновлениями библиотек.
📌 Подписывайтесь на ведущие ML-сообщества и блоги.
📌 Участвуйте в соревнованиях, применяйте знания в практике – создавайте проекты.
🔥 Хотите освежить знания или лучше понять, какая именно математика нужна для старта в ML? Попробуйте наш демо-курс "База ML". Он доступен бесплатно на Stepik и поможет разобраться в фундаментальных математических концепциях, необходимых для работы с моделями машинного обучения.
Освоение Data Science и машинного обучения — это марафон, а не спринт. Здесь нет волшебной таблетки, которая позволит быстро войти в сферу без усилий. Но если следовать определенным принципам, можно значительно ускорить процесс и избежать многих ошибок.
5 ключевых способов, которые помогут вам быстрее разобраться в Data Science/ML и построить успешную карьеру. 👇
1️⃣ Осознайте: это требует времени
Машинное обучение, программирование, математика — всё это невозможно освоить за одну ночь. Вам придется много учиться, пробовать, ошибаться и снова учиться. Это нормально, если у вас что-то не получается после нескольких часов разборов. Это не значит, что вам не дано, это значит, что нужно продолжать работать.
Часто новички бросают обучение, потому что у них не получается с первого раза. Но это нормально! ML — сложная сфера, требующая терпения. Если вы будете стабильно уделять время обучению, прогресс неизбежно придет.
2️⃣ Одержимость Data Science — ваш главный союзник
Чтобы достичь успеха, вы должны быть готовы идти до конца, даже если сейчас что-то не получается.
📌 Поставили цель — разберитесь в теме до конца.
📌 Начали курс — завершите его, даже если сложно.
📌 Проходите собеседования — не останавливайтесь, пока не получите оффер.
Некоторые жалуются: «Я уже три месяца ищу работу, но не могу устроиться». Три месяца — это средний срок для такой сложной профессии! Многие специалисты тратили годы на развитие карьеры. Вход в ML — это не быстрый процесс, и даже после первой работы обучение не заканчивается.
3️⃣ Рефлексируйте: анализируйте, как учитесь, и оптимизируйте процесс
Как вы изучаете материалы? Как можете делать это быстрее?
Например:
✔️ Вы осваиваете Python. Учитесь сразу работать в удобных инструментах — это сэкономит вам часы работы.
✔️ Учите математику. Не заучивайте формулы, а разбирайтесь в их смысле. Формулы — это язык, а не просто набор символов. Понимайте их взаимосвязь, и знания останутся с вами надолго.
4️⃣ Читать документацию — это must-have
Читайте официальную документацию библиотек, с которыми работаете (Pandas, NumPy, Scikit-learn, TensorFlow, PyTorch и др.)
Чем раньше вы привыкнете читать документацию, тем быстрее будете решать проблемы и разбираться в коде.
Те, кто умеют работать с документацией, решают задачи намного быстрее. Этот навык упростит вашу работу и сэкономит вам кучу времени в будущем.
5️⃣ Машинное обучение невозможно «выучить» раз и навсегда
Data Science, AI, ML развиваются стремительно. То, что вы выучили сегодня, может устареть через год. Поэтому обучение должно быть постоянным.
📌 Следите за новыми исследованиями, статьями, обновлениями библиотек.
📌 Подписывайтесь на ведущие ML-сообщества и блоги.
📌 Участвуйте в соревнованиях, применяйте знания в практике – создавайте проекты.
🔥 Хотите освежить знания или лучше понять, какая именно математика нужна для старта в ML? Попробуйте наш демо-курс "База ML". Он доступен бесплатно на Stepik и поможет разобраться в фундаментальных математических концепциях, необходимых для работы с моделями машинного обучения.
Stepik: online education
Демо-курс "База ML"
Узнаете, как применяется машинное обучение и как вы будете ему учиться на курсе. Узнаете, как в ML возникает математика, и как производная помогает обучать ML модели. Узнаете, как линейная алгебра помогает компактно выводить методы ML
❤12👍3
🤔 Какие soft skills важны для успешного роста в ML?
1️⃣ Критическое мышление
В машинном обучении нет «волшебных кнопок». Даже самые мощные модели не работают идеально, если вы неправильно сформулировали задачу или не учли важные данные.
Допустим, модель показывает отличные метрики на тестовых данных, но в продакшене её предсказания бесполезны. Значит, ошибка была в постановке задачи или данных.
👉 Как развивать?
🔹 Анализируйте метрики и ищите их интерпретацию, а не просто доверяйте числам.
🔹 Разбирайте статьи и научные исследования, оценивая их методологию.
🔹 При анализе данных задавайте вопрос: «Какие могут быть ошибки в этих выводах?»
2️⃣ Коммуникация и умение объяснять сложное простыми словами
ML — это не только про модели, но и про коммуникацию. Важно уметь объяснять результаты бизнесу, аналитикам и разработчикам, не перегружая их техническими деталями. Если вы объясняете клиенту, почему его модель не работает, и говорите ему про «регуляризацию L2», а не «избегаем переобучения», он вас просто не поймёт.
👉 Как развивать?
🔹 Пробуйте объяснять сложные вещи просто
🔹 Практикуйтесь на митапах, ведите блог, участвуйте в дискуссиях.
🔹 Слушайте выступления сильных специалистов и анализируйте, как они подают информацию.
3️⃣ Навык работы в команде
Даже если вы гениальный ML-инженер, проекты в одиночку — редкость. ML-продукты создаются совместно с аналитиками, разработчиками, менеджерами, MLOps-специалистами.
👉 Как развивать?
🔹 Участвуйте в open-source проектах и соревнованиях, взаимодействуйте с другими специалистами.
🔹 Учитесь слушать и принимать обратную связь.
🔹 Совместно работайте над кодом (code review, парное программирование).
4️⃣ Умение работать с неопределённостью
В ML нет гарантий, что модель заработает. Данные могут быть грязными, гипотезы — ошибочными, а метрики — нестабильными.
👉 Как развивать?
🔹 Привыкайте к тому, что в ML не бывает идеальных решений.
🔹 Используйте метод A/B-тестов, чтобы проверять гипотезы.
🔹 Научитесь работать с несовершенными данными.
5️⃣ Адаптивность и обучение на протяжении всей карьеры
ML — одна из самых быстроразвивающихся сфер. То, что было актуально год назад, может устареть. Если вы освоили один фреймворк и думаете, что этого хватит на годы, то… нет. Машинное обучение невозможно выучить один раз и дальше просто работать.
Готовность к постоянному обучению — критически важный навык.
👉 Как развивать?
🔹 Подписывайтесь на научные журналы и исследования (например, Arxiv, Papers with Code).
🔹 Следите за блогами и выступлениями ведущих ML-специалистов.
🔹 Изучайте новые фреймворки и библиотеки.
🔹Изучайте не только ML, но и смежные области (MLOps, Data Engineering, программирование)
6️⃣ Продуктовое мышление
ML-специалист должен понимать не только метрики модели, но и как она решает бизнес-задачи. Хорошие модели, которые не работают в продакшене, бесполезны.
👉 Как развивать?
🔹 При постановке задачи задавайте вопрос: какую ценность это принесёт бизнесу?
🔹 Учитесь анализировать продуктовые метрики (конверсия, retention, ARPU).
🔹 Работайте не только с кодом, но и с бизнес-аналитиками, чтобы понимать общий контекст.
1️⃣ Критическое мышление
В машинном обучении нет «волшебных кнопок». Даже самые мощные модели не работают идеально, если вы неправильно сформулировали задачу или не учли важные данные.
Допустим, модель показывает отличные метрики на тестовых данных, но в продакшене её предсказания бесполезны. Значит, ошибка была в постановке задачи или данных.
👉 Как развивать?
🔹 Анализируйте метрики и ищите их интерпретацию, а не просто доверяйте числам.
🔹 Разбирайте статьи и научные исследования, оценивая их методологию.
🔹 При анализе данных задавайте вопрос: «Какие могут быть ошибки в этих выводах?»
2️⃣ Коммуникация и умение объяснять сложное простыми словами
ML — это не только про модели, но и про коммуникацию. Важно уметь объяснять результаты бизнесу, аналитикам и разработчикам, не перегружая их техническими деталями. Если вы объясняете клиенту, почему его модель не работает, и говорите ему про «регуляризацию L2», а не «избегаем переобучения», он вас просто не поймёт.
👉 Как развивать?
🔹 Пробуйте объяснять сложные вещи просто
🔹 Практикуйтесь на митапах, ведите блог, участвуйте в дискуссиях.
🔹 Слушайте выступления сильных специалистов и анализируйте, как они подают информацию.
3️⃣ Навык работы в команде
Даже если вы гениальный ML-инженер, проекты в одиночку — редкость. ML-продукты создаются совместно с аналитиками, разработчиками, менеджерами, MLOps-специалистами.
👉 Как развивать?
🔹 Участвуйте в open-source проектах и соревнованиях, взаимодействуйте с другими специалистами.
🔹 Учитесь слушать и принимать обратную связь.
🔹 Совместно работайте над кодом (code review, парное программирование).
4️⃣ Умение работать с неопределённостью
В ML нет гарантий, что модель заработает. Данные могут быть грязными, гипотезы — ошибочными, а метрики — нестабильными.
👉 Как развивать?
🔹 Привыкайте к тому, что в ML не бывает идеальных решений.
🔹 Используйте метод A/B-тестов, чтобы проверять гипотезы.
🔹 Научитесь работать с несовершенными данными.
5️⃣ Адаптивность и обучение на протяжении всей карьеры
ML — одна из самых быстроразвивающихся сфер. То, что было актуально год назад, может устареть. Если вы освоили один фреймворк и думаете, что этого хватит на годы, то… нет. Машинное обучение невозможно выучить один раз и дальше просто работать.
Готовность к постоянному обучению — критически важный навык.
👉 Как развивать?
🔹 Подписывайтесь на научные журналы и исследования (например, Arxiv, Papers with Code).
🔹 Следите за блогами и выступлениями ведущих ML-специалистов.
🔹 Изучайте новые фреймворки и библиотеки.
🔹Изучайте не только ML, но и смежные области (MLOps, Data Engineering, программирование)
6️⃣ Продуктовое мышление
ML-специалист должен понимать не только метрики модели, но и как она решает бизнес-задачи. Хорошие модели, которые не работают в продакшене, бесполезны.
👉 Как развивать?
🔹 При постановке задачи задавайте вопрос: какую ценность это принесёт бизнесу?
🔹 Учитесь анализировать продуктовые метрики (конверсия, retention, ARPU).
🔹 Работайте не только с кодом, но и с бизнес-аналитиками, чтобы понимать общий контекст.
❤4😱2👍1
Настало время проверить свои знания! 🧠 ⚡️
Сегодня в нашем канале очередной квиз – отличная возможность освежить знания или узнать что-то новое.
Начинаем совсем скоро!👀
Сегодня в нашем канале очередной квиз – отличная возможность освежить знания или узнать что-то новое.
Начинаем совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7⚡1
Какой из методов можно использовать для обнаружения выбросов?
Anonymous Quiz
16%
Линейная регрессия
10%
ROC AUC
52%
Isolation Forest
23%
PCA
Какой алгоритм больше подходит для работы с временными рядами?
Anonymous Quiz
7%
Random Forest
80%
ARIMA
10%
Линейная регрессия
3%
k-means
👍2
Какую задачу решает метод KNN (k-ближайших соседей)?
Anonymous Quiz
3%
Только регрессию
18%
Только классификацию
54%
И регрессию, и классификацию
26%
Только кластеризацию
📚Обучение с учителем vs. Обучение без учителя
Когда мы говорим о машинном обучении, чаще всего имеем в виду два основных подхода: обучение с учителем (Supervised Learning) и обучение без учителя (Unsupervised Learning). Разбираемся, чем они отличаются и какие задачи решают.
👨🏫 Обучение с учителем (Supervised Learning)
Этот метод используется, когда у нас есть размеченные данные, то есть примеры входных данных и правильных ответов (обучающая выборка).
📌 Как это работает?
Допустим, у нас есть информация о пользователях приложения: кто-то перестал делать заказы, а кто-то продолжает пользоваться сервисом. Мы обучаем модель на этих данных и затем пытаемся предсказать, будет новый пользователь пользоваться приложением или нет.
🔹 Примеры задач обучения с учителем:
✔️ Классификация – модель распределяет объекты по категориям (например, определяет, что на фото: собака или кошка).
✔️ Регрессия – предсказание числовых значений (например, прогнозирование температуры в городе на завтра).
Здесь обучение проходит на обучающей выборке с правильными ответами, поэтому алгоритм учится на исторических данных и применяет знания на новых примерах.
👨💻Обучение без учителя (Unsupervised Learning)
Здесь нет правильных ответов в обучающей выборке. Алгоритм сам анализирует данные и ищет закономерности.
📌 Как это работает?
Представьте, что у вас есть геоданные пользователей. Мы не знаем заранее, где находится чей дом или офис, но можем сгруппировать точки на карте и определить основные кластеры – например, дом, работа, спортзал.
🔹 Примеры задач обучения без учителя:
✔️ Кластеризация – автоматическое выделение групп данных (например, разделение пользователей на сегменты по поведению).
✔️ Снижение размерности – выявление ключевых признаков в данных (например, анализ текстовых обращений в техподдержку и группировка их по темам).
Одна и та же задача может быть решена обоими подходами. Но, интересный момент: обучение без учителя не всегда решает именно ту задачу, которую мы задумывали.
Например, если у вас есть тысячи фото собак и кошек, а разметки нет, вы можете попросить алгоритм кластеризации разделить их. Но как он поймет, что вам нужно именно это разделение? Он может сгруппировать изображения по освещению, по качеству съемки или даже по фону! Это главная сложность обучения без учителя – объяснить алгоритму что именно вы от него хотите .
💡 С чего начать?
Обучение с учителем понятнее и проще, потому что есть разметка и четкая цель. Именно поэтому начинать путь в Data Science рекомендуется с него, а уже затем изучать обучение без учителя и более сложные техники.
Когда мы говорим о машинном обучении, чаще всего имеем в виду два основных подхода: обучение с учителем (Supervised Learning) и обучение без учителя (Unsupervised Learning). Разбираемся, чем они отличаются и какие задачи решают.
👨🏫 Обучение с учителем (Supervised Learning)
Этот метод используется, когда у нас есть размеченные данные, то есть примеры входных данных и правильных ответов (обучающая выборка).
📌 Как это работает?
Допустим, у нас есть информация о пользователях приложения: кто-то перестал делать заказы, а кто-то продолжает пользоваться сервисом. Мы обучаем модель на этих данных и затем пытаемся предсказать, будет новый пользователь пользоваться приложением или нет.
🔹 Примеры задач обучения с учителем:
✔️ Классификация – модель распределяет объекты по категориям (например, определяет, что на фото: собака или кошка).
✔️ Регрессия – предсказание числовых значений (например, прогнозирование температуры в городе на завтра).
Здесь обучение проходит на обучающей выборке с правильными ответами, поэтому алгоритм учится на исторических данных и применяет знания на новых примерах.
👨💻Обучение без учителя (Unsupervised Learning)
Здесь нет правильных ответов в обучающей выборке. Алгоритм сам анализирует данные и ищет закономерности.
📌 Как это работает?
Представьте, что у вас есть геоданные пользователей. Мы не знаем заранее, где находится чей дом или офис, но можем сгруппировать точки на карте и определить основные кластеры – например, дом, работа, спортзал.
🔹 Примеры задач обучения без учителя:
✔️ Кластеризация – автоматическое выделение групп данных (например, разделение пользователей на сегменты по поведению).
✔️ Снижение размерности – выявление ключевых признаков в данных (например, анализ текстовых обращений в техподдержку и группировка их по темам).
Одна и та же задача может быть решена обоими подходами. Но, интересный момент: обучение без учителя не всегда решает именно ту задачу, которую мы задумывали.
Например, если у вас есть тысячи фото собак и кошек, а разметки нет, вы можете попросить алгоритм кластеризации разделить их. Но как он поймет, что вам нужно именно это разделение? Он может сгруппировать изображения по освещению, по качеству съемки или даже по фону! Это главная сложность обучения без учителя – объяснить алгоритму что именно вы от него хотите .
💡 С чего начать?
Обучение с учителем понятнее и проще, потому что есть разметка и четкая цель. Именно поэтому начинать путь в Data Science рекомендуется с него, а уже затем изучать обучение без учителя и более сложные техники.
❤13👍3
Линейные vs. Нелинейные модели📊
В прошлом посте мы обсуждали различие между обучением с учителем и без учителя, а теперь разберемся, какие бывают модели в ML: линейные и нелинейные.
Как понять, какая модель лучше подойдет для вашей задачи? Давайте разбираться!
🔹 Что такое линейные модели?
Линейные модели предполагают линейную зависимость между параметрами модели и предсказываемой переменной. Это не всегда означает, что данные лежат на прямой – но математическая форма уравнения остается линейной.
📌 Пример:
Допустим, вы прогнозируете продажи мороженого в зависимости от температуры воздуха. Если каждое повышение температуры на 1°C приводит к росту продаж на 100 штук, такую зависимость можно описать линейной регрессией.
📌 Формула: y=mx+b
Где:
y – предсказанная величина (например, объем продаж)
x – входной параметр (например, температура)
m – коэффициент наклона (насколько сильно y изменяется при изменении x)
b – смещение (значение y если x = 0).
Плюсы линейных моделей:
✅ Просты в реализации и интерпретации,
✅ Работают быстро даже на больших данных,
✅ Хорошо работают, если зависимости действительно линейные.
Минусы линейных моделей:
❌ Чувствительны к выбросам,
❌ Плохо справляются со сложными зависимостями,
❌ Требуют тщательной подготовки данных (например, нормализации).
Важно учесть, что пример про температуру и продажи мороженого – упрощенный. В реальности связь может быть нелинейной: например, в слишком жаркую погоду (40°C) люди могут реже покупать мороженое.
🔹 Что такое нелинейные модели?
Нелинейные модели не ограничены линейными зависимостями. Они могут учитывать сложные закономерности, работать с большими объемами данных и адаптироваться к нестандартным зависимостям.
📌 Пример:
Представьте, что вы хотите предсказать вероятность оттока клиента из подписочного сервиса. Если человек использовал платформу мало – вероятность оттока высокая. Если он активный пользователь – вероятность оттока низкая. Вероятность оттока не изменяется равномерно с увеличением активности пользователя
Это нелинейная зависимость, и линейные модели не смогут ее корректно описать. Для таких задач используют градиентный бустинг (XGBoost, LightGBM, CatBoost) или нейросети.
Плюсы нелинейных моделей:
✅ Учитывают сложные зависимости,
✅ Хорошо работают с большими объемами данных,
✅ Подходят для сложных задач, таких как компьютерное зрение и NLP.
Минусы нелинейных моделей:
❌ Долго обучаются,
❌ Требуют больше данных,
❌ Трудно интерпретируются.
Как выбрать? 🧐
🔵 Если данные простые и зависимости линейные – выбирайте линейные модели (например, линейную регрессию).
🔵 Если зависимость сложная и нелинейная – подойдут градиентный бустинг, нейросети и ансамблированные модели.
🔵 Если нужна максимальная точность – нелинейные модели часто дают лучший результат.
Выводы
🔵 В ML нет универсального решения – модель выбирается под задачу.
🔵 Линейные модели – быстрые и интерпретируемые, но менее гибкие.
🔵 Нелинейные модели – мощные, но требуют больше данных и вычислений.
🔵 В сложных случаях можно комбинировать методы, используя feature engineering или ансамблирование.
В прошлом посте мы обсуждали различие между обучением с учителем и без учителя, а теперь разберемся, какие бывают модели в ML: линейные и нелинейные.
Как понять, какая модель лучше подойдет для вашей задачи? Давайте разбираться!
🔹 Что такое линейные модели?
Линейные модели предполагают линейную зависимость между параметрами модели и предсказываемой переменной. Это не всегда означает, что данные лежат на прямой – но математическая форма уравнения остается линейной.
📌 Пример:
Допустим, вы прогнозируете продажи мороженого в зависимости от температуры воздуха. Если каждое повышение температуры на 1°C приводит к росту продаж на 100 штук, такую зависимость можно описать линейной регрессией.
📌 Формула: y=mx+b
Где:
y – предсказанная величина (например, объем продаж)
x – входной параметр (например, температура)
m – коэффициент наклона (насколько сильно y изменяется при изменении x)
b – смещение (значение y если x = 0).
Плюсы линейных моделей:
✅ Просты в реализации и интерпретации,
✅ Работают быстро даже на больших данных,
✅ Хорошо работают, если зависимости действительно линейные.
Минусы линейных моделей:
❌ Чувствительны к выбросам,
❌ Плохо справляются со сложными зависимостями,
❌ Требуют тщательной подготовки данных (например, нормализации).
Важно учесть, что пример про температуру и продажи мороженого – упрощенный. В реальности связь может быть нелинейной: например, в слишком жаркую погоду (40°C) люди могут реже покупать мороженое.
🔹 Что такое нелинейные модели?
Нелинейные модели не ограничены линейными зависимостями. Они могут учитывать сложные закономерности, работать с большими объемами данных и адаптироваться к нестандартным зависимостям.
📌 Пример:
Представьте, что вы хотите предсказать вероятность оттока клиента из подписочного сервиса. Если человек использовал платформу мало – вероятность оттока высокая. Если он активный пользователь – вероятность оттока низкая. Вероятность оттока не изменяется равномерно с увеличением активности пользователя
Это нелинейная зависимость, и линейные модели не смогут ее корректно описать. Для таких задач используют градиентный бустинг (XGBoost, LightGBM, CatBoost) или нейросети.
Плюсы нелинейных моделей:
✅ Учитывают сложные зависимости,
✅ Хорошо работают с большими объемами данных,
✅ Подходят для сложных задач, таких как компьютерное зрение и NLP.
Минусы нелинейных моделей:
❌ Долго обучаются,
❌ Требуют больше данных,
❌ Трудно интерпретируются.
Как выбрать? 🧐
Выводы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11
This media is not supported in your browser
VIEW IN TELEGRAM
На канале MLinside вышло интервью с Марией Тихоновой — кандидатом компьютерных наук, доцентом ВШЭ и руководителем исследовательского направления в команде AGI NLP в Сбере. Мария — один из ведущих специалистов в области обучения и оценки больших языковых моделей.
💡 Что обсудили:
🔹 Как совмещать работу, преподавание и личную жизнь?
🔹 Как проходит день Data Scientist-а в Сбере?
🔹 Какие навыки нужны, чтобы попасть в R&D-команду?
🔹 Как устроен процесс найма в Сбере и кого берут?
🔹 Нужно ли техническое образование или есть альтернативные пути?
🔹 Как избежать профессионального выгорания и сохранить мотивацию?
👉 Смотреть интервью
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍6🤔2
Градиентный бустинг vs. Случайный лес – как они работают? 🧐
Случайный лес (Random Forest) и градиентный бустинг (Gradient Boosting) – оба метода основаны на ансамблировании деревьев решений, но работают по-разному и решают разные задачи. Давайте разберемся!
🔹 Случайный лес (Random Forest)
Это ансамблевый метод, который строит множество независимых деревьев решений и усредняет их предсказания. Представьте, что у вас есть много экспертов, каждый из которых делает свой прогноз, а итоговый результат – это их "среднее мнение".
Как работает Random Forest?
1️⃣ Генерируется несколько случайных подвыборок данных (bootstrap sampling).
2️⃣ Для каждой подвыборки строится дерево решений, но при каждом разбиении выбирается случайное подмножество признаков (feature bagging).
3️⃣ Финальный прогноз:
• В задачах классификации – берется большинство голосов (mode).
• В задачах регрессии – усредняются предсказания деревьев (mean).
Плюсы:
✔️ Устойчивость к переобучению (overfitting) за счет усреднения.
✔️ Хорошо работает на небольших и средних данных.
✔️ Не чувствителен к выбросам.
Минусы:
• Менее точный, чем градиентный бустинг, на сложных данных.
• Если данных очень мало, даже случайный лес может плохо работать.
🔹Градиентный бустинг (Gradient Boosting)
Градиентный бустинг строит последовательные деревья, каждое из которых минимизирует ошибку предыдущего с помощью градиентного спуска. Это как улучшать прогноз шаг за шагом, пока он не станет максимально точным.
Как работает Gradient Boosting?
1️⃣ Первое дерево делает начальное предсказание (например, среднее значение таргета).
2️⃣ Далее обучаются последовательные деревья, каждое из которых учится исправлять ошибки предыдущего.
3️⃣ Ошибки вычисляются с помощью градиентного спуска, а каждое новое дерево пытается минимизировать ошибку предыдущего.
Плюсы:
✔️ Высокая точность на сложных данных.
✔️ Хорошо работает с несбалансированными и шумными данными.
✔️ Адаптируется к сложным зависимостям в данных.
Минусы:
• Дольше обучается, чем случайный лес.
• Чувствителен к шуму и выбросам.
• Требует тщательной настройки гиперпараметров.
📌 В реальных задачах часто используют оба метода, тестируя их на кросс-валидации, чтобы выбрать оптимальный.
Случайный лес (Random Forest) и градиентный бустинг (Gradient Boosting) – оба метода основаны на ансамблировании деревьев решений, но работают по-разному и решают разные задачи. Давайте разберемся!
🔹 Случайный лес (Random Forest)
Это ансамблевый метод, который строит множество независимых деревьев решений и усредняет их предсказания. Представьте, что у вас есть много экспертов, каждый из которых делает свой прогноз, а итоговый результат – это их "среднее мнение".
Как работает Random Forest?
1️⃣ Генерируется несколько случайных подвыборок данных (bootstrap sampling).
2️⃣ Для каждой подвыборки строится дерево решений, но при каждом разбиении выбирается случайное подмножество признаков (feature bagging).
3️⃣ Финальный прогноз:
• В задачах классификации – берется большинство голосов (mode).
• В задачах регрессии – усредняются предсказания деревьев (mean).
Плюсы:
✔️ Устойчивость к переобучению (overfitting) за счет усреднения.
✔️ Хорошо работает на небольших и средних данных.
✔️ Не чувствителен к выбросам.
Минусы:
• Менее точный, чем градиентный бустинг, на сложных данных.
• Если данных очень мало, даже случайный лес может плохо работать.
🔹Градиентный бустинг (Gradient Boosting)
Градиентный бустинг строит последовательные деревья, каждое из которых минимизирует ошибку предыдущего с помощью градиентного спуска. Это как улучшать прогноз шаг за шагом, пока он не станет максимально точным.
Как работает Gradient Boosting?
1️⃣ Первое дерево делает начальное предсказание (например, среднее значение таргета).
2️⃣ Далее обучаются последовательные деревья, каждое из которых учится исправлять ошибки предыдущего.
3️⃣ Ошибки вычисляются с помощью градиентного спуска, а каждое новое дерево пытается минимизировать ошибку предыдущего.
Плюсы:
✔️ Высокая точность на сложных данных.
✔️ Хорошо работает с несбалансированными и шумными данными.
✔️ Адаптируется к сложным зависимостям в данных.
Минусы:
• Дольше обучается, чем случайный лес.
• Чувствителен к шуму и выбросам.
• Требует тщательной настройки гиперпараметров.
📌 В реальных задачах часто используют оба метода, тестируя их на кросс-валидации, чтобы выбрать оптимальный.
❤11
Когда ИИ ошибается: провал Amazon в AI-рекрутинге 🤖
ИИ сегодня проникает во все сферы жизни — от медицины до рекрутмента. Amazon — одна из ведущих компаний в применении машинного обучения, и их алгоритмы успешно работают в рекомендациях, логистике и персонализации. Однако даже у них бывают провалы. Один из самых громких случаев связан с AI-рекрутером, который должен был автоматизировать найм, но вместо этого стал дискриминировать кандидатов.
👩💼Как Amazon попытался ускорить найм с помощью ИИ
В 2014 году компания начала разработку алгоритма автоматизированного отбора кандидатов. Идея была простой: ИИ анализирует резюме, находит лучшие и отбирает наиболее подходящих специалистов. Такой инструмент мог бы значительно ускорить процесс найма.
❌Что пошло не так?
Чтобы обучить модель, Amazon использовал резюме кандидатов за последние 10 лет. Но в IT-индустрии за этот период доминировали мужчины. Алгоритм заметил это и счел мужчин "предпочтительным" вариантом. В результате:
🔹 Кандидаты-женщины получали заниженный рейтинг.
🔹 Выпускники женских колледжей автоматически попадали в "низший" список.
🔹 Даже слово "женский" (women’s) в резюме снижало шансы на успех.
🤔 Почему Amazon отказался от AI-рекрутинга?
Компания попыталась исправить модель, но даже после правок алгоритм продолжал находить новые способы дискриминации. В 2018 году, после расследования Reuters, проект был окончательно закрыт.
Amazon официально заявил, что система не использовалась в реальном найме, но кейс стал знаковым примером предвзятости в машинном обучении.
Вывод
✅ ИИ-алгоритмы могут усиливать дискриминацию, если обучаются на исторически предвзятых данных.
✅ Даже крупные компании с огромными ресурсами не всегда могут исправить проблему.
✅ Тестирование на предвзятость — обязательный этап перед внедрением моделей в бизнес-процессы.
Этот случай показывает, насколько важно проверять данные перед обучением ИИ. Ведь если данные отражают устаревшие стереотипы, модель просто перенимает их, а не исправляет.
📌 Хотите больше разборов неудачных AI-кейсов? Пишите в комментариях!
ИИ сегодня проникает во все сферы жизни — от медицины до рекрутмента. Amazon — одна из ведущих компаний в применении машинного обучения, и их алгоритмы успешно работают в рекомендациях, логистике и персонализации. Однако даже у них бывают провалы. Один из самых громких случаев связан с AI-рекрутером, который должен был автоматизировать найм, но вместо этого стал дискриминировать кандидатов.
👩💼Как Amazon попытался ускорить найм с помощью ИИ
В 2014 году компания начала разработку алгоритма автоматизированного отбора кандидатов. Идея была простой: ИИ анализирует резюме, находит лучшие и отбирает наиболее подходящих специалистов. Такой инструмент мог бы значительно ускорить процесс найма.
❌Что пошло не так?
Чтобы обучить модель, Amazon использовал резюме кандидатов за последние 10 лет. Но в IT-индустрии за этот период доминировали мужчины. Алгоритм заметил это и счел мужчин "предпочтительным" вариантом. В результате:
🔹 Кандидаты-женщины получали заниженный рейтинг.
🔹 Выпускники женских колледжей автоматически попадали в "низший" список.
🔹 Даже слово "женский" (women’s) в резюме снижало шансы на успех.
🤔 Почему Amazon отказался от AI-рекрутинга?
Компания попыталась исправить модель, но даже после правок алгоритм продолжал находить новые способы дискриминации. В 2018 году, после расследования Reuters, проект был окончательно закрыт.
Amazon официально заявил, что система не использовалась в реальном найме, но кейс стал знаковым примером предвзятости в машинном обучении.
Вывод
✅ ИИ-алгоритмы могут усиливать дискриминацию, если обучаются на исторически предвзятых данных.
✅ Даже крупные компании с огромными ресурсами не всегда могут исправить проблему.
✅ Тестирование на предвзятость — обязательный этап перед внедрением моделей в бизнес-процессы.
Этот случай показывает, насколько важно проверять данные перед обучением ИИ. Ведь если данные отражают устаревшие стереотипы, модель просто перенимает их, а не исправляет.
📌 Хотите больше разборов неудачных AI-кейсов? Пишите в комментариях!
🔥10❤3👍2😁2👨💻1
Готовы проверить себя?
Сегодня в нашем канале — новый квиз! Несколько увлекательных задач, хорошая разминка для мозга и шанс узнать что-то полезное.
Не пропустите! 🧠 ✨
Сегодня в нашем канале — новый квиз! Несколько увлекательных задач, хорошая разминка для мозга и шанс узнать что-то полезное.
Не пропустите! 🧠 ✨
❤6
Какую метрику качества из перечисленных лучше использовать в задачах классификации с несбалансированными классами?
Anonymous Quiz
7%
Accuracy
6%
Precision
9%
Recall
78%
F1-score
Что означает термин "градиентный спуск"?
Anonymous Quiz
4%
Алгоритм для оценки точности модели
89%
Метод оптимизации функции потерь
5%
Процесс выбора гиперпараметров
2%
Механизм разбиения данных на кластеры
📌 Когда ИИ «слышит» не то: как Grok от Илона Маска обвинил звезду NBA в вандализме
Продолжаем публиковать кейсы провалов искусственного интеллекта — примеры, где технологии дали сбой даже в крупнейших проектах. Сегодня расскажем о Grok, чат-боте от xAI Илона Маска, который в 2024 году оказался в центре громкого скандала.
🏀 В апреле 2024 года Grok ложно обвинил Клэя Томпсона, известного баскетболиста, в том, что он якобы кидал кирпичи в окна домов в Сакраменто. На самом деле Томпсон «бросал кирпичи» — в переносном смысле. В баскетболе “Throwing bricks” означает грубые промахи по кольцу. В последней игре за Golden State Warriors он действительно провел один из худших матчей в карьере, что и породило волну таких комментариев в соцсетях.
Grok, «поглотив» эту информацию из постов на X (бывший Twitter), буквально интерпретировал сленг, превратив метафору в фейковое обвинение в уголовном преступлении.
🧠 Хотя у Grok есть дисклеймер «может ошибаться, перепроверяйте ответы», ситуация поднимает серьёзные вопросы:
🔵 Кто несёт ответственность за подобные ошибки?
🔵 Должен ли ИИ понимать контекст и культурные особенности языка?
🔵 Как защитить репутацию людей от ложных обвинений со стороны ИИ?
💬 Даже один неправильный вывод ИИ может привести к массовым последствиям — особенно если речь идёт о публичных людях.
Продолжаем публиковать кейсы провалов искусственного интеллекта — примеры, где технологии дали сбой даже в крупнейших проектах. Сегодня расскажем о Grok, чат-боте от xAI Илона Маска, который в 2024 году оказался в центре громкого скандала.
🏀 В апреле 2024 года Grok ложно обвинил Клэя Томпсона, известного баскетболиста, в том, что он якобы кидал кирпичи в окна домов в Сакраменто. На самом деле Томпсон «бросал кирпичи» — в переносном смысле. В баскетболе “Throwing bricks” означает грубые промахи по кольцу. В последней игре за Golden State Warriors он действительно провел один из худших матчей в карьере, что и породило волну таких комментариев в соцсетях.
Grok, «поглотив» эту информацию из постов на X (бывший Twitter), буквально интерпретировал сленг, превратив метафору в фейковое обвинение в уголовном преступлении.
🧠 Хотя у Grok есть дисклеймер «может ошибаться, перепроверяйте ответы», ситуация поднимает серьёзные вопросы:
💬 Даже один неправильный вывод ИИ может привести к массовым последствиям — особенно если речь идёт о публичных людях.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥5😁2
Netflix — лидер в мире стриминга, и его рекомендательная система сыграла огромную роль в этом успехе. В своем блоге компания поделилась опытом объединения нескольких отдельных моделей машинного обучения для поиска и рекомендаций в одну многозадачную модель, которая решает несколько проблем одновременно. 🧠
💡 Почему это важно? Традиционно системы рекомендаций создают отдельные модели для различных задач, например: рекомендации на основе пользователя (user-to-item), похожие товары (item-to-item), поиск (query-to-item), и категоризация (category-to-item). Но такой подход приводит к значительным затратам на управление и поддержку множества моделей. Netflix пошёл другим путём и объединил все эти модели в одну.
📊Как это работает?
• Снижение объёма кода и ресурсов: Меньше моделей означает меньше работы по поддержке.
• Быстрое внедрение изменений: Обновления и улучшения распространяются быстрее на всю систему.
• Упрощение масштабирования: Легче масштабировать единую модель, чем множество независимых моделей.
⚙️ Как обеспечивается производительность? Netflix использует специализированные среды для различных типов задач. Например, для обработки данных с высокой задержкой используется инфраструктура, оптимизирующая время отклика. Модели развернуты через гибкий API, что позволяет интегрировать их с различными сервисами и быстро адаптировать систему под разные условия.
🔄 Итог: Объединение ML моделей для рекомендаций контента в Netflix стало не только техническим улучшением, но и стратегическим шагом к оптимизации затрат и улучшению пользовательского опыта. Такой подход позволяет Netflix быстрее реагировать на изменения и задачи, сокращая сложности и затраты.
🔄 Вопрос к вам: Как вы думаете, можно ли применить этот подход в других отраслях для улучшения систем?
📚 Хотите разобраться, как работают рекомендательные системы? Мы подготовили демо-курс "ML в бизнесе" на платформе Stepik, который состоит из 6 лекций на тему рекомендательных систем. Присоединяйтесь и расширяйте свои знания!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥3
Сегодня — квиз в нашем канале! ✨
Квиз поможет вам освежить знания и, возможно, узнать что-то новое.
Не упустите шанс проверить себя! 📚
Квиз поможет вам освежить знания и, возможно, узнать что-то новое.
Не упустите шанс проверить себя! 📚
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5