NEW BOT Телеграм, страница

Forwarded from IT Portal

Стенфорд запустил бесплатный курс по Deep Learning, который ведёт основатель Coursera — Эндрю Ын

Программа охватывает всё: от базовых принципов нейросетей до LLM, RL, агентов, RAG и мультимодальных моделей

Первая лекция здесь. Материалы и расписание здесь

@IT_Portal

❤11👍5🤔1

2.3K views05:46

Data Portal | DS & ML

Когда мы говорим про RAG, обычно думают так: проиндексировал документ → потом извлёк тот же самый документ.

Но индексация ≠ извлечение.

Данные, которые ты индексируешь, не обязаны быть теми же данными, которые ты подаёшь в LLM во время генерации.

Вот 4 умных способа индексировать данные:

1) Chunk Indexing (индексация чанков)

🔹Самый распространённый подход.

🔹Документ разбивается на чанки, затем каждый чанк преобразуется в эмбеддинг и сохраняется в векторную БД.

🔹При запросе извлекаются ближайшие чанки по косинусному сходству (или другому метрике).

Просто и эффективно, но слишком большие или «шумные» чанки могут снизить точность.

2) Sub-chunk Indexing (индексация под-чанков)

🔹Берём исходные чанки и дополнительно разбиваем их на более мелкие под-чанки.

🔹Индексируем именно эти мелкие фрагменты.

🔹При извлечении всё ещё возвращаем более крупный чанк для контекста.

Этот подход полезен, если документ содержит несколько разных концепций в одном разделе - повышается шанс точного совпадения с запросом.

3) Query Indexing (индексация по запросам)

🔹Вместо того чтобы индексировать сырой текст, генерируются гипотетические вопросы, на которые, по мнению LLM, данный чанк может ответить.

🔹Эти вопросы эмбеддятся и сохраняются.

🔹При реальном запросе пользователя поиск происходит по этим «синтетическим» вопросам.

🔹Похожая идея используется в HyDE, но там сопоставляется гипотетический ответ с реальными чанками.

Отличный вариант для систем вопрос–ответ (QA), поскольку он сокращает семантический разрыв между пользовательским запросом и индексированными данными.

4) Summary Indexing (индексация по суммаризации)

🔹Используется LLM, чтобы сгенерировать краткое семантическое представление (summary) для каждого чанка.

🔹В индекс попадает именно summary, а не исходный текст.

🔹При извлечении возвращается оригинальный чанк для контекста.

Особенно эффективно для плотных или структурированных данных (например, CSV или таблиц), где эмбеддинги сырого текста не дают осмысленных результатов.

👉

@DataSciencegx

Please open Telegram to view this post