🤖📚 Что такое RAG (Retrieval-Augmented Generation) и как он улучшает генерацию текста?
RAG — это гибрид двух моделей:
1️⃣ Retriever (Поисковая модель) — сначала берёт твой запрос и быстро ищет релевантные документы или фрагменты текста в большой базе данных. Для этого обычно используют векторное представление текста (эмбеддинги) и алгоритмы поиска по ним (например, FAISS).
2️⃣ Generator (Генеративная модель) — получает найденные тексты и вместе с исходным запросом генерирует ответ. В основе обычно лежит трансформер, например GPT или BART.
❓Зачем нужен RAG?
Большие языковые модели (LLM) вроде GPT-4 знают много, но:
- они не знают актуальной информации (после даты обучения)
- могут галлюцинировать (придумывать факты)
- не всегда надёжны в критичных задачах (здравоохранение, финансы, право)
RAG решает это: он не «вспоминает» ответ из памяти, а ищет реальные документы, а потом формирует ответ на их основе.
По сути RAG просто улучшает ваш prompt-запрос в LLM качественным и полноценным контекстом (если в базе есть нужные документы и удалось их найти).
Пример использования:
🔸 В чатботах, которые отвечают на вопросы по технической документации — вместо «угадывания» бот сначала ищет в документации нужный кусок, а потом уже объясняет.
🔸 В корпоративных базах данных — находит все нужные статьи по нужным темам, которые так тяжело найти, а потом даёт структурированный скомпонованный ответ по любому запросу, хоть даже зачастую статьи дублируют друг друга.
🚀 Например ответы чат-бота на госуслугах можно улучшить с помощью RAG, чтобы чат-бот не только выводил названия нужных страниц сервиса, но и давал интерпретацию для чего именно лучше подходит каждая из страниц.
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
RAG — это гибрид двух моделей:
1️⃣ Retriever (Поисковая модель) — сначала берёт твой запрос и быстро ищет релевантные документы или фрагменты текста в большой базе данных. Для этого обычно используют векторное представление текста (эмбеддинги) и алгоритмы поиска по ним (например, FAISS).
2️⃣ Generator (Генеративная модель) — получает найденные тексты и вместе с исходным запросом генерирует ответ. В основе обычно лежит трансформер, например GPT или BART.
❓Зачем нужен RAG?
Большие языковые модели (LLM) вроде GPT-4 знают много, но:
- они не знают актуальной информации (после даты обучения)
- могут галлюцинировать (придумывать факты)
- не всегда надёжны в критичных задачах (здравоохранение, финансы, право)
RAG решает это: он не «вспоминает» ответ из памяти, а ищет реальные документы, а потом формирует ответ на их основе.
По сути RAG просто улучшает ваш prompt-запрос в LLM качественным и полноценным контекстом (если в базе есть нужные документы и удалось их найти).
Пример использования:
🔸 В чатботах, которые отвечают на вопросы по технической документации — вместо «угадывания» бот сначала ищет в документации нужный кусок, а потом уже объясняет.
🔸 В корпоративных базах данных — находит все нужные статьи по нужным темам, которые так тяжело найти, а потом даёт структурированный скомпонованный ответ по любому запросу, хоть даже зачастую статьи дублируют друг друга.
🚀 Например ответы чат-бота на госуслугах можно улучшить с помощью RAG, чтобы чат-бот не только выводил названия нужных страниц сервиса, но и давал интерпретацию для чего именно лучше подходит каждая из страниц.
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20🔥6👍3
Как называется процесс преобразования текстовых данных в числовой вид?
Anonymous Quiz
3%
PCA
55%
Векторизация
41%
Токенизация
2%
Градиентный спуск
Какой метод обучает ансамбль слабых моделей для повышения точности?
Anonymous Quiz
4%
Регрессия
6%
PCA
86%
Бустинг
4%
Оверфиттинг
Какой алгоритм обучения строит нелинейные разделяющие поверхности с помощью Kernel Trick?
Anonymous Quiz
5%
Логистическая регрессия
76%
Support Vector Machine (SVM)
3%
Линейная регрессия
16%
k-means
🤖 Парадокс ИИ: все боятся, что он всех заменит — но спрос на тех, кто умеет с ним работать, только растет!
По данным hh.ru, за последние 10 лет количество вакансий, связанных с анализом данных и ML, в России выросло почти в 30 раз. За последние 4 года — в 2,5 раза.
И это не просто стартапы — это банки, ритейл, телеком, логистика. Им нужны те, кто умеет работать с данными, строить модели и решать задачи бизнеса.
💼 ML-инженеры — среди самых высокооплачиваемых специалистов! Зарплаты Senior-специалистов в крупных компаниях доходят до 500–600 тыс. рублей в месяц.
⚡️ Главное — начать уже сейчас!
🧠 Если вы хотите войти в ML и подготовиться к первым собеседованиям на позицию Junior — не пропустите старт нашего курса «База ML».
По данным hh.ru, за последние 10 лет количество вакансий, связанных с анализом данных и ML, в России выросло почти в 30 раз. За последние 4 года — в 2,5 раза.
И это не просто стартапы — это банки, ритейл, телеком, логистика. Им нужны те, кто умеет работать с данными, строить модели и решать задачи бизнеса.
💼 ML-инженеры — среди самых высокооплачиваемых специалистов! Зарплаты Senior-специалистов в крупных компаниях доходят до 500–600 тыс. рублей в месяц.
⚡️ Главное — начать уже сейчас!
🧠 Если вы хотите войти в ML и подготовиться к первым собеседованиям на позицию Junior — не пропустите старт нашего курса «База ML».
❤8🤔4
Не пропустите видео-отзывы наших выпускников!
Если вы задумываетесь о входе в ML, но не уверены, с чего начать — послушайте тех, кто уже прошел этот путь с нами.
🗣 Артур Табиев — раньше работал аналитиком данных, но столкнулся с задачей прогнозирования продаж, где понадобились уже не просто цифры, а модели. Тогда он понял, что без технической базы в ML не обойтись.
Что его привлекло в MLinside? — сильный практический опыт преподавателей и внятная структура курса. Сейчас Артур точно знает: он хочет перейти из аналитики в машинное обучение.
🗣 Виктор Пономарёв — BI-аналитик в Сбере, в прошлом системный аналитик. Начал интересоваться ML после внутреннего воркшопа на работе. До курса учился сам, но рассказал, что самообучение — это вакуум: сложно понять, где ты, и что делаешь не так.
В MLinside он нашел не только грамотную подачу от профессионалов, но и поддержку менторов, адекватную нагрузку (от 2 до 10 часов в неделю), и главное — ощущение, что он движется в нужном направлении.
Всем советуем смотреть видео-отзывы на наш курс «База ML» — это честный взгляд изнутри от тех, кто уже начал свой переход в ML.
А вы готовы сделать шаг?
Если вы задумываетесь о входе в ML, но не уверены, с чего начать — послушайте тех, кто уже прошел этот путь с нами.
🗣 Артур Табиев — раньше работал аналитиком данных, но столкнулся с задачей прогнозирования продаж, где понадобились уже не просто цифры, а модели. Тогда он понял, что без технической базы в ML не обойтись.
Что его привлекло в MLinside? — сильный практический опыт преподавателей и внятная структура курса. Сейчас Артур точно знает: он хочет перейти из аналитики в машинное обучение.
🗣 Виктор Пономарёв — BI-аналитик в Сбере, в прошлом системный аналитик. Начал интересоваться ML после внутреннего воркшопа на работе. До курса учился сам, но рассказал, что самообучение — это вакуум: сложно понять, где ты, и что делаешь не так.
В MLinside он нашел не только грамотную подачу от профессионалов, но и поддержку менторов, адекватную нагрузку (от 2 до 10 часов в неделю), и главное — ощущение, что он движется в нужном направлении.
Всем советуем смотреть видео-отзывы на наш курс «База ML» — это честный взгляд изнутри от тех, кто уже начал свой переход в ML.
А вы готовы сделать шаг?
❤8👍1🎉1
Вопросы с собеседований
Продолжаем нашу регулярную рубрику и помогаем подготовиться к собеседованию по ML.
Наши ответы на вопросы опубликуем в понедельник, а сейчас ждем ваших ответов в комментариях!
Вопросы:
1️⃣ Как обучается случайный лес?
2️⃣ Как модель CatBoost обрабатывает категориальные фичи?
3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?
#собеседования_MLinside
Продолжаем нашу регулярную рубрику и помогаем подготовиться к собеседованию по ML.
Наши ответы на вопросы опубликуем в понедельник, а сейчас ждем ваших ответов в комментариях!
Вопросы:
1️⃣ Как обучается случайный лес?
2️⃣ Как модель CatBoost обрабатывает категориальные фичи?
3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?
#собеседования_MLinside
❤9👍2
Ответы на вопросы с собеседований
1️⃣ Как обучается случайный лес?
2️⃣ Как модель CatBoost обрабатывает категориальные фичи?
3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
#собеседования_MLinside
1️⃣ Как обучается случайный лес?
Случайный лес обучается как ансамбль решающих деревьев, каждый из которых строится на бутстрап-выборке (рандомизированный сабсет обучающей выборки) с рандомным подмножеством признаков на каждом сплите. Это снижает корреляцию между деревьями и уменьшает дисперсию модели. Финальное предсказание — усреднение (регрессия) или голосование (классификация).
2️⃣ Как модель CatBoost обрабатывает категориальные фичи?
CatBoost обрабатывает категориальные фичи без явного one-hot или label encoding — он использует целевое кодирование с упорядоченными статистиками: для каждого объекта категория кодируется средним таргетом, рассчитанным на предыдущих примерах в случайной перестановке. Это снижает утечку таргета (target leakage) и переобучение. Также CatBoost автоматически генерирует комбинации категорий, улучшая захват взаимодействий.
3️⃣ Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?
Квадратичная функция потерь у линейной регрессии выбрана за её гладкость, выпуклость и дифференцируемость, что гарантирует единственное оптимальное решение и удобство численной оптимизации (градиентный спуск, нормальное уравнение). Более высокие степени усложняют ландшафт функции, делают её менее устойчивой к выбросам и затрудняют обучение, без весомых преимуществ в стабильности или интерпретируемости. Кубическая функция при том ещё и несимметрична, что создаёт проблемы в работе с ошибками разного знака.
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
#собеседования_MLinside
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27
Media is too big
VIEW IN TELEGRAM
На YouTube-канале MLinside вышло интервью с Татьяной Савельевой — лидером рейтинга Forbes «30 до 30» в категории «Наука и технологии» (2022), предпринимателем, создателем сервисов InfluAI и Flatsharing community, экс-CEO Yandex SupportAI и соосновательницей EVA AI.
Обсудили:
🔹Карьерный путь от МФТИ до работы в Сбере, Яндексе и стартапах
🔹Как осознать, что готов(а) к предпринимательству — и запустить свой продукт
🔹Что на самом деле делает CEO в крупной технологической компании
🔹Как трижды стать CEO до 30 лет и при этом справляться с синдромом самозванца
🔹 Советы начинающим в AI: как расти, не бояться перемен и добиваться повышения
Откровенный и вдохновляющий разговор о росте, выборе пути, стартапах и технологиях. Обязательно к просмотру всем, кто хочет расти в ML/AI и строить свой бизнес.
Обсудили:
🔹Карьерный путь от МФТИ до работы в Сбере, Яндексе и стартапах
🔹Как осознать, что готов(а) к предпринимательству — и запустить свой продукт
🔹Что на самом деле делает CEO в крупной технологической компании
🔹Как трижды стать CEO до 30 лет и при этом справляться с синдромом самозванца
🔹 Советы начинающим в AI: как расти, не бояться перемен и добиваться повышения
Откровенный и вдохновляющий разговор о росте, выборе пути, стартапах и технологиях. Обязательно к просмотру всем, кто хочет расти в ML/AI и строить свой бизнес.
🔥21❤4
Не волнуйтесь, мы не выбираем между YouTube и Telegram — мы оставляем оба. А у вас отличный шанс повлиять на то, какие темы мы раскроем дальше!
MLinside — школа ML. Кроме создания курсов с нацеленным погружением в сферу мы публикуем образовательные материалы в наши соцсети.
Теперь у вас есть возможность влиять на наш контент — и в телеграм-канале, и на ютубе.
Что разобрать? Какие темы раскрыть? Что интересует и давно хотелось спросить, но было некому?
📌 Мы открыли форму, в которой вы можете предложить свои идеи:
— для постов в Telegram
— и для видео на YouTube
🔗 Оставить идею
Мы внимательно читаем каждое предложение и превращаем ваши идеи в контент, который помогает расти и развиваться!
MLinside — школа ML. Кроме создания курсов с нацеленным погружением в сферу мы публикуем образовательные материалы в наши соцсети.
Теперь у вас есть возможность влиять на наш контент — и в телеграм-канале, и на ютубе.
Что разобрать? Какие темы раскрыть? Что интересует и давно хотелось спросить, но было некому?
📌 Мы открыли форму, в которой вы можете предложить свои идеи:
— для постов в Telegram
— и для видео на YouTube
🔗 Оставить идею
Мы внимательно читаем каждое предложение и превращаем ваши идеи в контент, который помогает расти и развиваться!
❤8🔥5⚡3
Заметки — где сегодня применяется ML?
Отвечаем на один из самых частых запросов от нашей аудитории — делаем посты по вашим темам 💬
Вот лишь малая, основная часть сфер, где машинное обучение уже используется каждый день:
▪️ Рекомендательные системы — в маркетплейсах, стримингах и соцсетях
▪️ Кредитный скоринг и антифрод — в банках и финтехе
▪️ Оптимизация логистики — в доставке, ритейле, транспорте
▪️ Чат-боты и голосовые помощники — в поддержке и HR
▪️ Персонализированный маркетинг — сегментация и прогноз отклика
▪️ Компьютерное зрение — в ритейле, медицине, безопасности
▪️ Диагностика заболеваний — на основе изображений и медицинских данных
▪️ Динамическое ценообразование — в авиабилетах, e-commerce и такси
▪️ Генеративные модели — от текстов и картинок до кода и стратегий
ML проникает в десятки индустрий. И если вы планируете входить в эту сферу — важно понимать, где именно можно применить свои навыки.
Кстати, этот пост — по теме, предложенной подписчиками.
Если у вас тоже есть идея, о чем нам стоит написать или снять видео — вот форма для предложений:
🔗 Оставить свою тему
А ещё — совсем скоро мы анонсируем старт третьего потока курса “База ML”. Если вы только начинаете путь в ML и хотите уверенно подготовиться к своему первому собеседованию — не пропустите начало курса!
Для предзаписи на курс заполните анкету и мы с вами свяжемся.
Отвечаем на один из самых частых запросов от нашей аудитории — делаем посты по вашим темам 💬
Вот лишь малая, основная часть сфер, где машинное обучение уже используется каждый день:
▪️ Рекомендательные системы — в маркетплейсах, стримингах и соцсетях
▪️ Кредитный скоринг и антифрод — в банках и финтехе
▪️ Оптимизация логистики — в доставке, ритейле, транспорте
▪️ Чат-боты и голосовые помощники — в поддержке и HR
▪️ Персонализированный маркетинг — сегментация и прогноз отклика
▪️ Компьютерное зрение — в ритейле, медицине, безопасности
▪️ Диагностика заболеваний — на основе изображений и медицинских данных
▪️ Динамическое ценообразование — в авиабилетах, e-commerce и такси
▪️ Генеративные модели — от текстов и картинок до кода и стратегий
ML проникает в десятки индустрий. И если вы планируете входить в эту сферу — важно понимать, где именно можно применить свои навыки.
Кстати, этот пост — по теме, предложенной подписчиками.
Если у вас тоже есть идея, о чем нам стоит написать или снять видео — вот форма для предложений:
🔗 Оставить свою тему
А ещё — совсем скоро мы анонсируем старт третьего потока курса “База ML”. Если вы только начинаете путь в ML и хотите уверенно подготовиться к своему первому собеседованию — не пропустите начало курса!
Для предзаписи на курс заполните анкету и мы с вами свяжемся.
mlinside.ru
Курс "База ML"
Курс по основам машинного обучения для подготовки к ML-секции собеседования
❤11👍3
CEO собственных AI-проектов до 30 лет! На YouTube-канале MLinside вышла вторая часть интервью с Татьяной Савельевой.
Татьяна — основательница и CEO AI-стартапов InfluAI и Flatsharing community, экс-CEO Yandex SupportAI и EVA AI.
В интервью она рассказывает:
🔹Почему ушла из Яндекса и EVA AI и начала путь предпринимателя
🔹Чем занимается CEO собственных стартапов
🔹Что значит «делать свой продукт» и стоит ли запускать AI-стартап ради идеи или ради денег
🔹Как меняется цифровое пространство сегодня и можно ли заработать на предпринимательстве и AI-стартапах
Это очень личный и мотивирующий разговор для всех, кто строит карьеру в ML/AI, хочет стать CEO и задумывается о собственном стартапе.
👉 Смотреть вторую часть интервью
Татьяна — основательница и CEO AI-стартапов InfluAI и Flatsharing community, экс-CEO Yandex SupportAI и EVA AI.
В интервью она рассказывает:
🔹Почему ушла из Яндекса и EVA AI и начала путь предпринимателя
🔹Чем занимается CEO собственных стартапов
🔹Что значит «делать свой продукт» и стоит ли запускать AI-стартап ради идеи или ради денег
🔹Как меняется цифровое пространство сегодня и можно ли заработать на предпринимательстве и AI-стартапах
Это очень личный и мотивирующий разговор для всех, кто строит карьеру в ML/AI, хочет стать CEO и задумывается о собственном стартапе.
👉 Смотреть вторую часть интервью
YouTube
Предпринимательство в AI: путь от корпораций к своим проектам | Татьяна Савельева
Татьяна Савельева – лидер рейтинга Forbes «30 до 30» в категории «Наука и технологии» (2022), предприниматель, создатель сервисов InfluAI и Flatsharing community, ex-CEO Yandex SupportAI и EVA AI.
В интервью Татьяна рассказывает о переходе от корпоративной…
В интервью Татьяна рассказывает о переходе от корпоративной…
🔥6❤5👎3👍1
Если бы это было собеседование, вы бы прошли?
Не паникуем. Это просто квиз.😅
Проверьте, на каком вы уровне, и освежите знания по ML!
Начинаем прямо сейчас!👇
Не паникуем. Это просто квиз.😅
Проверьте, на каком вы уровне, и освежите знания по ML!
Начинаем прямо сейчас!👇
❤4👍1
Какой метод увеличивает количество данных в обучающей выборке?
Anonymous Quiz
8%
PCA
72%
Data Augmentation
5%
L1-регуляризация
15%
Undersampling
🤔1
Что происходит при использовании метода dropout в нейронных сетях?
Anonymous Quiz
2%
Увеличивается размер данных
82%
Исключаются случайные нейроны во время обучения
15%
Уменьшается количество слоев
1%
Обучаются дополнительные слои
🤔1
Какой алгоритм чаще всего используется как бейзлайн для классификации текстов?
Anonymous Quiz
9%
Линейная регрессия
77%
TF-IDF + логистическая регрессия
7%
PCA
7%
Random Forest
🤔1
Запускаем новый поток курса «База ML»!
Недавно делились отзывами выпускников на наш курс «База ML», а теперь у вас тоже есть шанс пройти такой же путь.
Старт третьего потока курса «База ML» — уже 5 августа!
Если вы:
— смотрели материалы по ML, но не хватало системности и понимания, где и зачем это применять;
— хотите сменить место работы и увеличить зарплату;
— хотите применять ML в текущей работе,
тогда этот курс точно для вас!
Результат курса — через 4-6 месяцев будете готовы к собеседованию на джуниор ML-специалиста, даже если стартуете почти с нуля.
Осталось меньше месяца до старта!
🔗 Записаться на курс
По всем вопросам обращайтесь к нашему менеджеру @ml_inside_manager
Недавно делились отзывами выпускников на наш курс «База ML», а теперь у вас тоже есть шанс пройти такой же путь.
Старт третьего потока курса «База ML» — уже 5 августа!
Если вы:
— смотрели материалы по ML, но не хватало системности и понимания, где и зачем это применять;
— хотите сменить место работы и увеличить зарплату;
— хотите применять ML в текущей работе,
тогда этот курс точно для вас!
Результат курса — через 4-6 месяцев будете готовы к собеседованию на джуниор ML-специалиста, даже если стартуете почти с нуля.
Осталось меньше месяца до старта!
🔗 Записаться на курс
По всем вопросам обращайтесь к нашему менеджеру @ml_inside_manager
🔥7❤4
Можно ли оплатить курс за счет компании? Да!
Курс “База ML” может оплатить ваша компания.
Если вы аналитик, разработчик или менеджер, который хочет использовать ML в своей работе — это отличная возможность.
Перед работодателем это легко обосновать: курс помогает повысить вашу квалификацию без отрыва от задач и внедрять ML в процессы компании.
А вы получите обучение за счет компании, начнете применять знания в работе и уверенно решать ML-задачи.
Старт курса уже 5 августа!
🔗 Записаться на курс
По всем вопросам обращайтесь к нашему менеджеру @ml_inside_manager
Курс “База ML” может оплатить ваша компания.
Если вы аналитик, разработчик или менеджер, который хочет использовать ML в своей работе — это отличная возможность.
Перед работодателем это легко обосновать: курс помогает повысить вашу квалификацию без отрыва от задач и внедрять ML в процессы компании.
А вы получите обучение за счет компании, начнете применять знания в работе и уверенно решать ML-задачи.
Старт курса уже 5 августа!
🔗 Записаться на курс
По всем вопросам обращайтесь к нашему менеджеру @ml_inside_manager
❤6🔥2
