NEW BOT Телеграм, страница - 516577730

MLinside - школа ML

3.51K subscribers

202 photos

18 videos

165 links

Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm

Download Telegram

About

Blog

Apps

Platform

MLinside - школа ML

3.51K subscribers

MLinside - школа ML

This media is not supported in your browser

VIEW IN TELEGRAM

▶️

На нашем YouTube-канале вышло интервью с Константином Чукреевым — Growth Product Lead в Manychat, ранее работал в Яндекс Лавке, где за короткий срок прошел путь от ML-разработчика до продакт менеджера уровня Middle+.

Константин рассказывает:
▪️ Как он переходил из аналитики и ML в продакт-менеджмент.
▪️ Какие задачи решал в Яндексе и Manychat.
▪️ Какие навыки нужны продактам и ML-специалистам для развития.
▪️Советы молодым специалистам по Data Science и ML
▪️ Будущее чатботов с ИИ и перспективы AI через 5–10 лет.
▪️ Как делать карьерный переход и кому стоит идти в продакт-менеджмент

🎯 Интервью для тех, кто хочет развиваться на стыке ML, аналитики и продукта.

🔥Спойлер: если вы хотите курс от MLinside и Константина специально для продакт-менеджеров — обязательно посмотрите это интервью!

👉 Смотреть здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤6

8.15K viewsedited 15:02

MLinside - школа ML

Готовы проверить свои знания? ⚡️

Сегодня в нашем канале — новый квиз! Вопросы лёгкого уровня помогут освежить знания или узнать что-то новое.

Не пропустите, начнём совсем скоро! 👀 🧠

💥 СПОЙЛЕР: Если вы готовитесь к собеседованию на джуна в ML или просто хотите узнать, как это устроено изнутри — ждите отличную новость, которая совсем скоро появится в нашем канале!

❤5👍2🔥2

1.77K views14:55

MLinside - школа ML

Что из перечисленного используется для регуляризации моделей?

Anonymous Quiz

Добавление L1 и L2 штрафов за большие веса модели

Нормализация данных

Увеличение размера обучающей выборки

Уменьшение количества метрик качества

380 voters1.77K views15:01

MLinside - школа ML

Какое из утверждений о кластеризации k-means неверно?

Anonymous Quiz

Кластеризация k-means требует указания числа кластеров заранее

Кластеризация k-means использует евклидово расстояние по умолчанию

Кластеризация k-means может работать с любым типом данных без изменений

Кластеризация k-means назначает объект к кластеру на основе минимального расстояния до центра

347 voters1.92K views15:01

MLinside - школа ML

Какой метод используется для автоматического подбора гиперпараметров модели?

Anonymous Quiz

Градиентный спуск

Grid Search или Random Search

Линейная регрессия

Преобразование признаков

❤4

385 voters1.89K views15:01

MLinside - школа ML

Знакомая ситуация? 😅

Ожидания от модели — небесные, качество данных — под землей.

👇 Поделитесь в комментариях под мемом, какие самые странные вещи вы видели в датасетах.

#мемнедели

😁17🔥6

1.86K views15:00

MLinside - школа ML

⚠️

Приглашаем на наш вебинар!

У нас отличная новость — совсем скоро мы проведем mock-собеседование на позицию junior ML специалиста! У вас будет возможность задавать вопросы в ходе вебинара, проверить свои знания и готовность пройти собеседование или просто узнать о том, как проходят такие интервью и какие вопросы задают.

🗓️ Когда: 28 мая (среда), 19:00 (МСК)

Собеседование будет вести Виктор Кантор — основатель MLinside, эксперт по Big Data и AI, бывший Chief Data Officer МТС и Chief Data Scientist Яндекс.Такси

В роли кандидата — Илья Кустов, выпускник первого потока курса «База ML» и инженер в государственном учреждении. Илья решил сменить направление, потому что верит, что искусственный интеллект — это будущее человечества. Его привлекает работа с аналитической обработкой данных и точными науками, а также желание развиваться и расти в новой для себя сфере.

📚 Вебинар покажет, каких результатов можно добиться после обучения на курсе «База ML» и насколько он помогает подготовиться к реальным собеседованиям.

🔗 Регистрируйтесь по ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13👍2

1.92K views15:03

MLinside - школа ML

🔥Вопросы с собеседований

Мы снова подготовили для вас вопросы, которые часто встречаются на собеседованиях по ML 📚

Ответы мы опубликуем в понедельник, а пока ждем ваши варианты в комментариях! 💬

📌 Вопросы:

1️⃣ В чём разница между методами ансамблирования моделей: бэггинг и бустинг?
2️⃣ В каких случаях увеличение количества данных для обучения не поможет избежать переобучения?
3️⃣ Что такое прунинг деревьев? Зачем он нужен, и какие виды существуют?

#собеседования_MLinside

❤9👍3

1.84K viewsedited 15:01

MLinside - школа ML

📌 Ответы на вопросы с собеседований

1️⃣ В чём разница между следующими методами ансамблирования моделей: стэкинг и бустинг?

Бэггинг (bagging) обучает много моделей независимо друг от друга на разных подвыборках и усредняет результат — он снижает дисперсию (variance), не сильно влияя на смещение (bias).

Бустинг (boosting) обучает модели последовательно, каждая исправляет ошибки предыдущих — он снижаетсмещение (bias), но может увеличить дисперсию, особенно если переобучиться.

2️⃣ В каких случаях увеличение количества данных для обучения не поможет избежать переобучения?

Увеличение количества данных не поможет избежать переобучения, если модель слишком сложная для решаемой задачи — тогда она всё равно может подгонять шум в данных. Также, если новые данные не добавляют разнообразия (например, они из той же выборки и не покрывают новые случаи), переобучение сохранится. Кроме того, если данные остаются с теми же ошибками, увеличение объёма не решит проблему.

3️⃣ Что такое прунинг деревьев? Зачем он нужен, и какие виды есть?

Прунинг (обрезка) деревьев — это удаление лишних ветвей дерева, чтобы уменьшить переобучение и улучшить обобщающую способность модели.

Он нужен, потому что полностью выросшее дерево может подгоняться под шум и детали обучающей выборки.

Виды прунинга:

- Pre-pruning (ранняя остановка) — остановка роста дерева при достижении условий (например, макс. глубина, мин. число объектов в узле).
- Post-pruning (пост-обрезка) — сначала строится полное дерево, потом лишние ветви удаляются на основе кросс-валидации или прироста качества.

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

Автор: Александр Дубейковский, специалист по ML, ex-Yandex

#собеседования_MLinside

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11

1.8K viewsedited 15:01

MLinside - школа ML

‼️

Не упустите шанс — вебинар уже завтра!

Завтра, 28 мая в 19:00 (МСК), мы проведём mock-собеседование на Junior ML специалиста — уникальная возможность увидеть, как проходят настоящие собеседования, получить ценные инсайты и проверить свою готовность.

Собеседование будет вести Виктор Кантор — основатель MLinside, эксперт по Big Data и AI, бывший Chief Data Officer МТС и Chief Data Scientist Яндекс.Такси.

В качестве кандидата выступит Илья Кустов, выпускник первого потока курса «База ML» и инженер в госучреждении.

⏳ Регистрируйтесь сейчас и готовьтесь к настоящим собеседованиям с уверенностью!

🔗 Ссылка на регистрацию

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤2

2.05K views15:04

MLinside - школа ML

🎉 Сегодня и завтра мы на Aha!25 — одной из крупнейших технических конференций по ML, AI, аналитике и продакт-менеджменту!

📍 Если вы тоже на Aha! — приходите знакомиться! У нас уютная зона (да, та самая с зеленым диваном), можно пообщаться про карьеру, обучение и узнать, как использовать ML, чтобы расти в профессии и приносить больше ценности бизнесу. А также поесть мандарины 🤫

📸 На фото — наш стенд. Заходите!

❤15👍5

2.44K views11:30

MLinside - школа ML

This media is not supported in your browser

VIEW IN TELEGRAM

0:25

2.48K views15:17

🔥23❤6

MLinside - школа ML

🔥 Продолжаем рубрику “Вопросы с собеседований”!

Сегодня снова делимся вопросами, которые могут встретиться во время интервью на ML-позиции.

💬 Пишите свои ответы в комментариях, а наши ответы мы опубликуем в среду!

📌 Вопросы:

1️⃣ Как устроено/строится дерево решений?
2️⃣ Как оценить важность признаков?
3️⃣ Почему F1 метрика берёт именно среднее гармоническое от precision и recall, а не среднее, или среднее геометрическое к примеру?

📌Все прошлые вопросы в нашем канале ищите по хештегу #собеседования_MLinside

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

2.12K viewsedited 15:01

MLinside - школа ML

📌 Ответы на вопросы с собеседований

1️⃣ Как устроено/строится дерево решений?

Дерево решений строится рекурсивно: на каждом шаге оно выбирает признак и порог, по которому лучше всего разделить данные, чтобы максимизировать "чистоту" разбиения (например, по информации, джини или снижению дисперсии).

Затем данные делятся на две части, и для каждой строятся поддеревья. Этот процесс продолжается до достижения заданной глубины, минимального количества объектов в узле или до тех пор, пока все объекты в узле не будут одного класса (для классификации).

2️⃣ Как оценить важность признаков?

Оценить важность признаков можно по-разному: в деревьях — по снижению импьюрити или permute importance, в линейных моделях — по коэффициентам. Но наиболее универсальный и надёжный метод — SHAP: он основан на теории игр, учитывает все взаимодействия, даёт как локальные, так и глобальные оценки и работает с любыми моделями. Лучше комбинировать несколько подходов для полноты картины.

3️⃣ Почему F1 метрика берёт именно среднее гармоническое от precision и recall, а не среднее, или среднее геометрическое к примеру?

F1 использует гармоническое среднее, потому что оно весьма строго наказывает дисбаланс между precision и recall: высокое значение возможно только если оба велики. Гармоническое среднее сильнее наказывает за перекос точности и полноты чем арифметическое или геометрическое средние, доказывается через неравенство Коши.

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

Автор: Александр Дубейковский, специалист по ML, ex-Yandex

#собеседования_MLinside

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18

2.16K viewsedited 15:01

MLinside - школа ML

Media is too big

VIEW IN TELEGRAM

🔥 На YouTube-канале MLinside вышли интервью с Валерием Бабушкиным — одним из самых узнаваемых экспертов в сфере ML и Data Science, Senior Director по Data & AI в BP (British Petroleum), автором книги Machine Learning System Design и Kaggle Competitions Grandmaster’ом.

Обсудили:
✅ Чем отличается работа в российских и зарубежных компаниях — и что стало неожиданным при переходе.
✅ Как устроен бигтех изнутри и какие у него плюсы и минусы.
✅ Что выбрать: стартап или корпорацию? И в чём разница для DS-специалиста.
✅ Какие качества и подходы действительно важны для роста в ML/DS.
✅ Советы молодым специалистам: с чего начать и как продолжать расти.

👉 Смотреть первую часть
👉 Смотреть вторую часть

🔥22❤5⚡2👍1

2.05K views15:01

MLinside - школа ML

🚀 Как работает градиентный спуск и почему он так важен?

🎯 1. Что такое функция потерь и зачем она нужна?
Когда мы обучаем модель (например, нейросеть), она делает предсказания. Чтобы понять, насколько они точные, мы используем функцию потерь, которая показывает, насколько сильно модель ошибается. Наша цель — минимизировать эту ошибку.

🤔 2. Почему напрямую найти минимум сложно?
Функция потерь зависит от множества параметров модели (весов). Эту функцию потерь можно нарисовать на многомерном графике, тогда у нас получится гиперплоскость, с количеством координат равным количеству параметров модели. Найти самую низкую точку (минимум) на этой гиперплоскости вычислительно тяжёлая задача.

🔍 3. Что такое антиградиент?
Антиградиент в точке гиперплоскости — это вектор, противоположный градиенту, указывающий направление наибыстрейшего убывания функции потерь.

⬇️ 4. Как работает градиентный спуск?
Градиентный спуск — это метод, который шаг за шагом движется в сторону антиградиента. Каждый шаг — это обновление параметров модели (наших координат для графика функции потерь), которое приближает нас к минимуму функции потерь. Новые значения координат дают нам новые значения весов.

⚡️ 5. Почему шаг обучения (learning rate) важен?
Если шаг слишком большой — мы можем «перепрыгнуть» минимум. Если слишком маленький — обучение будет очень медленным.

🚀 6. Почему градиентный спуск важен?
Градиентный спуск обеспечивает стабильное движение к оптимальным решениям и делает обучение масштабируемым и управляемым. С его помощью тренируют все современные глубокие нейросети, и даже базовые модели МЛ.

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

Автор: Александр Дубейковский, специалист по ML, ex-Yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15🔥4

1.98K views15:07

MLinside - школа ML

🤖📚 Что такое RAG (Retrieval-Augmented Generation) и как он улучшает генерацию текста?

RAG — это гибрид двух моделей:
1️⃣ Retriever (Поисковая модель) — сначала берёт твой запрос и быстро ищет релевантные документы или фрагменты текста в большой базе данных. Для этого обычно используют векторное представление текста (эмбеддинги) и алгоритмы поиска по ним (например, FAISS).
2️⃣ Generator (Генеративная модель) — получает найденные тексты и вместе с исходным запросом генерирует ответ. В основе обычно лежит трансформер, например GPT или BART.

❓Зачем нужен RAG?
Большие языковые модели (LLM) вроде GPT-4 знают много, но:
- они не знают актуальной информации (после даты обучения)
- могут галлюцинировать (придумывать факты)
- не всегда надёжны в критичных задачах (здравоохранение, финансы, право)
RAG решает это: он не «вспоминает» ответ из памяти, а ищет реальные документы, а потом формирует ответ на их основе.
По сути RAG просто улучшает ваш prompt-запрос в LLM качественным и полноценным контекстом (если в базе есть нужные документы и удалось их найти).

Пример использования:
🔸 В чатботах, которые отвечают на вопросы по технической документации — вместо «угадывания» бот сначала ищет в документации нужный кусок, а потом уже объясняет.
🔸 В корпоративных базах данных — находит все нужные статьи по нужным темам, которые так тяжело найти, а потом даёт структурированный скомпонованный ответ по любому запросу, хоть даже зачастую статьи дублируют друг друга.
🚀 Например ответы чат-бота на госуслугах можно улучшить с помощью RAG, чтобы чат-бот не только выводил названия нужных страниц сервиса, но и давал интерпретацию для чего именно лучше подходит каждая из страниц.

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

〰️

Автор: Александр Дубейковский, специалист по ML, ex-Yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

❤20🔥6👍3

2.07K views15:11

MLinside - школа ML

Готовы для нового квиза?🥳

Время проверить знания!

Начинаем 👀 🧠

🔥1

1.82K views14:59

MLinside - школа ML

Как называется процесс преобразования текстовых данных в числовой вид?

Anonymous Quiz

Векторизация

Токенизация

Градиентный спуск

516 voters1.86K views15:00

MLinside - школа ML

Какой метод обучает ансамбль слабых моделей для повышения точности?

Anonymous Quiz

Регрессия

Оверфиттинг

498 voters1.91K views15:00

MLinside - школа ML

Какой алгоритм обучения строит нелинейные разделяющие поверхности с помощью Kernel Trick?

Anonymous Quiz

Логистическая регрессия

Support Vector Machine (SVM)

Линейная регрессия

501 voters1.97K views15:00