MLinside - школа ML – Telegram
MLinside - школа ML
3.51K subscribers
202 photos
18 videos
165 links
Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
Download Telegram
Media is too big
VIEW IN TELEGRAM
🔥 На YouTube-канале MLinside вышли интервью с Валерием Бабушкиным — одним из самых узнаваемых экспертов в сфере ML и Data Science, Senior Director по Data & AI в BP (British Petroleum), автором книги Machine Learning System Design и Kaggle Competitions Grandmaster’ом.

Обсудили:
Чем отличается работа в российских и зарубежных компаниях — и что стало неожиданным при переходе.
Как устроен бигтех изнутри и какие у него плюсы и минусы.
Что выбрать: стартап или корпорацию? И в чём разница для DS-специалиста.
Какие качества и подходы действительно важны для роста в ML/DS.
Советы молодым специалистам: с чего начать и как продолжать расти.

👉 Смотреть первую часть
👉 Смотреть вторую часть
🔥2252👍1
🚀 Как работает градиентный спуск и почему он так важен?

🎯 1. Что такое функция потерь и зачем она нужна?
Когда мы обучаем модель (например, нейросеть), она делает предсказания. Чтобы понять, насколько они точные, мы используем функцию потерь, которая показывает, насколько сильно модель ошибается. Наша цель — минимизировать эту ошибку.

🤔 2. Почему напрямую найти минимум сложно?
Функция потерь зависит от множества параметров модели (весов). Эту функцию потерь можно нарисовать на многомерном графике, тогда у нас получится гиперплоскость, с количеством координат равным количеству параметров модели. Найти самую низкую точку (минимум) на этой гиперплоскости вычислительно тяжёлая задача.

🔍 3. Что такое антиградиент?
Антиградиент в точке гиперплоскости — это вектор, противоположный градиенту, указывающий направление наибыстрейшего убывания функции потерь.

⬇️ 4. Как работает градиентный спуск?
Градиентный спуск — это метод, который шаг за шагом движется в сторону антиградиента. Каждый шаг — это обновление параметров модели (наших координат для графика функции потерь), которое приближает нас к минимуму функции потерь. Новые значения координат дают нам новые значения весов.

⚡️ 5. Почему шаг обучения (learning rate) важен?
Если шаг слишком большой — мы можем «перепрыгнуть» минимум. Если слишком маленький — обучение будет очень медленным.

🚀 6. Почему градиентный спуск важен?
Градиентный спуск обеспечивает стабильное движение к оптимальным решениям и делает обучение масштабируемым и управляемым. С его помощью тренируют все современные глубокие нейросети, и даже базовые модели МЛ.

〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥4
🤖📚 Что такое RAG (Retrieval-Augmented Generation) и как он улучшает генерацию текста?

RAG — это гибрид двух моделей:
1️⃣ Retriever (Поисковая модель) — сначала берёт твой запрос и быстро ищет релевантные документы или фрагменты текста в большой базе данных. Для этого обычно используют векторное представление текста (эмбеддинги) и алгоритмы поиска по ним (например, FAISS).
2️⃣ Generator (Генеративная модель) — получает найденные тексты и вместе с исходным запросом генерирует ответ. В основе обычно лежит трансформер, например GPT или BART.

Зачем нужен RAG?
Большие языковые модели (LLM) вроде GPT-4 знают много, но:
- они не знают актуальной информации (после даты обучения)
- могут галлюцинировать (придумывать факты)
- не всегда надёжны в критичных задачах (здравоохранение, финансы, право)
RAG решает это: он не «вспоминает» ответ из памяти, а ищет реальные документы, а потом формирует ответ на их основе.
По сути RAG просто улучшает ваш prompt-запрос в LLM качественным и полноценным контекстом (если в базе есть нужные документы и удалось их найти).

Пример использования:
🔸 В чатботах, которые отвечают на вопросы по технической документации — вместо «угадывания» бот сначала ищет в документации нужный кусок, а потом уже объясняет.
🔸 В корпоративных базах данных — находит все нужные статьи по нужным темам, которые так тяжело найти, а потом даёт структурированный скомпонованный ответ по любому запросу, хоть даже зачастую статьи дублируют друг друга.
🚀 Например ответы чат-бота на госуслугах можно улучшить с помощью RAG, чтобы чат-бот не только выводил названия нужных страниц сервиса, но и давал интерпретацию для чего именно лучше подходит каждая из страниц.

〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
20🔥6👍3
Готовы для нового квиза?🥳

Время проверить знания!

Начинаем 👀 🧠
🔥1
Как называется процесс преобразования текстовых данных в числовой вид?
Anonymous Quiz
3%
PCA
55%
Векторизация
41%
Токенизация
2%
Градиентный спуск
Какой метод обучает ансамбль слабых моделей для повышения точности?
Anonymous Quiz
4%
Регрессия
6%
PCA
86%
Бустинг
4%
Оверфиттинг
Какой алгоритм обучения строит нелинейные разделяющие поверхности с помощью Kernel Trick?
Anonymous Quiz
5%
Логистическая регрессия
76%
Support Vector Machine (SVM)
3%
Линейная регрессия
16%
k-means
🤖 Парадокс ИИ: все боятся, что он всех заменит — но спрос на тех, кто умеет с ним работать, только растет!

По данным hh.ru, за последние 10 лет количество вакансий, связанных с анализом данных и ML, в России выросло почти в 30 раз. За последние 4 года — в 2,5 раза.

И это не просто стартапы — это банки, ритейл, телеком, логистика. Им нужны те, кто умеет работать с данными, строить модели и решать задачи бизнеса.

💼 ML-инженеры — среди самых высокооплачиваемых специалистов! Зарплаты Senior-специалистов в крупных компаниях доходят до 500–600 тыс. рублей в месяц.

⚡️ Главное — начать уже сейчас!

🧠 Если вы хотите войти в ML и подготовиться к первым собеседованиям на позицию Junior — не пропустите старт нашего курса «База ML».
8🤔4
Не пропустите видео-отзывы наших выпускников!

Если вы задумываетесь о входе в ML, но не уверены, с чего начать — послушайте тех, кто уже прошел этот путь с нами.

🗣 Артур Табиев — раньше работал аналитиком данных, но столкнулся с задачей прогнозирования продаж, где понадобились уже не просто цифры, а модели. Тогда он понял, что без технической базы в ML не обойтись.
Что его привлекло в MLinside? — сильный практический опыт преподавателей и внятная структура курса. Сейчас Артур точно знает: он хочет перейти из аналитики в машинное обучение.

🗣 Виктор Пономарёв — BI-аналитик в Сбере, в прошлом системный аналитик. Начал интересоваться ML после внутреннего воркшопа на работе. До курса учился сам, но рассказал, что самообучение — это вакуум: сложно понять, где ты, и что делаешь не так.
В MLinside он нашел не только грамотную подачу от профессионалов, но и поддержку менторов, адекватную нагрузку (от 2 до 10 часов в неделю), и главное — ощущение, что он движется в нужном направлении.

Всем советуем смотреть видео-отзывы на наш курс «База ML» — это честный взгляд изнутри от тех, кто уже начал свой переход в ML.

А вы готовы сделать шаг?
8👍1🎉1
Вопросы с собеседований

Продолжаем нашу регулярную рубрику и помогаем подготовиться к собеседованию по ML.

Наши ответы на вопросы опубликуем в понедельник, а сейчас ждем ваших ответов в комментариях!

Вопросы:

1️⃣ Как обучается случайный лес?
2️⃣ Как модель CatBoost обрабатывает категориальные фичи?
3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?

#собеседования_MLinside
9👍2
Ответы на вопросы с собеседований

1️⃣ Как обучается случайный лес?
Случайный лес обучается как ансамбль решающих деревьев, каждый из которых строится на бутстрап-выборке (рандомизированный сабсет обучающей выборки) с рандомным подмножеством признаков на каждом сплите. Это снижает корреляцию между деревьями и уменьшает дисперсию модели. Финальное предсказание — усреднение (регрессия) или голосование (классификация).


2️⃣ Как модель CatBoost обрабатывает категориальные фичи?
CatBoost обрабатывает категориальные фичи без явного one-hot или label encoding — он использует целевое кодирование с упорядоченными статистиками: для каждого объекта категория кодируется средним таргетом, рассчитанным на предыдущих примерах в случайной перестановке. Это снижает утечку таргета (target leakage) и переобучение. Также CatBoost автоматически генерирует комбинации категорий, улучшая захват взаимодействий.


3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?
Квадратичная функция потерь у линейной регрессии выбрана за её гладкость, выпуклость и дифференцируемость, что гарантирует единственное оптимальное решение и удобство численной оптимизации (градиентный спуск, нормальное уравнение). Более высокие степени усложняют ландшафт функции, делают её менее устойчивой к выбросам и затрудняют обучение, без весомых преимуществ в стабильности или интерпретируемости. Кубическая функция при том ещё и несимметрична, что создаёт проблемы в работе с ошибками разного знака.

〰️〰️〰️〰️〰️〰️〰️〰️〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex

#собеседования_MLinside
Please open Telegram to view this post
VIEW IN TELEGRAM
27
Media is too big
VIEW IN TELEGRAM
На YouTube-канале MLinside вышло интервью с Татьяной Савельевой — лидером рейтинга Forbes «30 до 30» в категории «Наука и технологии» (2022), предпринимателем, создателем сервисов InfluAI и Flatsharing community, экс-CEO Yandex SupportAI и соосновательницей EVA AI.

Обсудили:
🔹Карьерный путь от МФТИ до работы в Сбере, Яндексе и стартапах
🔹Как осознать, что готов(а) к предпринимательству — и запустить свой продукт
🔹Что на самом деле делает CEO в крупной технологической компании
🔹Как трижды стать CEO до 30 лет и при этом справляться с синдромом самозванца
🔹 Советы начинающим в AI: как расти, не бояться перемен и добиваться повышения

Откровенный и вдохновляющий разговор о росте, выборе пути, стартапах и технологиях. Обязательно к просмотру всем, кто хочет расти в ML/AI и строить свой бизнес.
🔥214
Не волнуйтесь, мы не выбираем между YouTube и Telegram — мы оставляем оба. А у вас отличный шанс повлиять на то, какие темы мы раскроем дальше!

MLinside — школа ML. Кроме создания курсов с нацеленным погружением в сферу мы публикуем образовательные материалы в наши соцсети.

Теперь у вас есть возможность влиять на наш контент — и в телеграм-канале, и на ютубе.

Что разобрать? Какие темы раскрыть? Что интересует и давно хотелось спросить, но было некому?

📌 Мы открыли форму, в которой вы можете предложить свои идеи:
— для постов в Telegram
— и для видео на YouTube

🔗 Оставить идею

Мы внимательно читаем каждое предложение и превращаем ваши идеи в контент, который помогает расти и развиваться!
8🔥53
Заметки — где сегодня применяется ML?

Отвечаем на один из самых частых запросов от нашей аудитории — делаем посты по вашим темам 💬

Вот лишь малая, основная часть сфер, где машинное обучение уже используется каждый день:
▪️ Рекомендательные системы — в маркетплейсах, стримингах и соцсетях
▪️ Кредитный скоринг и антифрод — в банках и финтехе
▪️ Оптимизация логистики — в доставке, ритейле, транспорте
▪️ Чат-боты и голосовые помощники — в поддержке и HR
▪️ Персонализированный маркетинг — сегментация и прогноз отклика
▪️ Компьютерное зрение — в ритейле, медицине, безопасности
▪️ Диагностика заболеваний — на основе изображений и медицинских данных
▪️ Динамическое ценообразование — в авиабилетах, e-commerce и такси
▪️ Генеративные модели — от текстов и картинок до кода и стратегий

ML проникает в десятки индустрий. И если вы планируете входить в эту сферу — важно понимать, где именно можно применить свои навыки.

Кстати, этот пост — по теме, предложенной подписчиками.
Если у вас тоже есть идея, о чем нам стоит написать или снять видео — вот форма для предложений:
🔗 Оставить свою тему

А ещё — совсем скоро мы анонсируем старт третьего потока курса “База ML”. Если вы только начинаете путь в ML и хотите уверенно подготовиться к своему первому собеседованию — не пропустите начало курса!
Для предзаписи на курс заполните анкету и мы с вами свяжемся.
11👍3
CEO собственных AI-проектов до 30 лет! На YouTube-канале MLinside вышла вторая часть интервью с Татьяной Савельевой.

Татьяна — основательница и CEO AI-стартапов InfluAI и Flatsharing community, экс-CEO Yandex SupportAI и EVA AI.

В интервью она рассказывает:

🔹Почему ушла из Яндекса и EVA AI и начала путь предпринимателя
🔹Чем занимается CEO собственных стартапов
🔹Что значит «делать свой продукт» и стоит ли запускать AI-стартап ради идеи или ради денег
🔹Как меняется цифровое пространство сегодня и можно ли заработать на предпринимательстве и AI-стартапах

Это очень личный и мотивирующий разговор для всех, кто строит карьеру в ML/AI, хочет стать CEO и задумывается о собственном стартапе.

👉 Смотреть вторую часть интервью
🔥65👎3👍1
Channel photo updated
Если бы это было собеседование, вы бы прошли?

Не паникуем. Это просто квиз.😅

Проверьте, на каком вы уровне, и освежите знания по ML!

Начинаем прямо сейчас!👇
4👍1
Какой метод увеличивает количество данных в обучающей выборке?
Anonymous Quiz
8%
PCA
72%
Data Augmentation
5%
L1-регуляризация
15%
Undersampling
🤔1
Какой алгоритм чаще всего используется как бейзлайн для классификации текстов?
Anonymous Quiz
9%
Линейная регрессия
77%
TF-IDF + логистическая регрессия
7%
PCA
7%
Random Forest
🤔1
Запускаем новый поток курса «База ML»!

Недавно делились отзывами выпускников на наш курс «База ML», а теперь у вас тоже есть шанс пройти такой же путь.

Старт третьего потока курса «База ML» — уже 5 августа!

Если вы:
— смотрели материалы по ML, но не хватало системности и понимания, где и зачем это применять;
— хотите сменить место работы и увеличить зарплату;
— хотите применять ML в текущей работе,
тогда этот курс точно для вас!

Результат курса — через 4-6 месяцев будете готовы к собеседованию на джуниор ML-специалиста, даже если стартуете почти с нуля.

Осталось меньше месяца до старта!

🔗 Записаться на курс

По всем вопросам обращайтесь к нашему менеджеру @ml_inside_manager
🔥74