NLP Wanderer – Telegram
NLP Wanderer
1.47K subscribers
63 photos
2 videos
4 files
71 links
Попытки разобраться в бесконечном потоке NLP статей и моделей, а еще немного странных идей...
Download Telegram
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://news.1rj.ru/str/researchim
👍8🐳2👨‍💻1
Forwarded from КПД
YDS - Efficient models (Сжатие LLM).pdf
6.1 MB
Презентация с моей сегодняшней лекции про методы сжатия БЯМ на курсе Школы Анализа Данных Яндекса "Эффективные Модели".

В ней даю краткий обзор по существующим подходам, актуальным работам в области и некоторые общие рекомендации.
🔥18
Бывает делаешь датасет без статьи и блога, никому о нем не рассказываешь, выкладываешь тихонечко в опенсорс - а потом тебя неожиданно цитируют китайцы в работе про ризонинг через почти полтора года.

В недавней работе (24тое апреля) "DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training" от команды a-m-team, где авторы решили отобрать самые лучшие данные для трейна ризонинга и проработали методологию подготовки данных с акцентом на уровни сложности, среди прочих, цитируется мой датасет - hivaze/LOGIC-701. В самой работе авторы показыват что хорошая методология работы с данным позволяет тренировать SOTA ризонинг модели с нуля из базовых версий (Qwen2.5-32B и Qwen2.5-72B), используя только лишь SFT без RL (GRPO/DPO).

Сам датасет из себя представляет синтетический мультичойс датасет на 701 строку с 10 типами разных чисто логических задач. Отдельная фишка - все задачи и ответы даются паралельно на двух языках (выполнен перевод с англа на русский), что позволяет использовать этот датасет как бенчмарк сопобностей ризонинга моделей на двух языках. Датасет был создан в период моей работы в Точка банке (в описании датасета я это даже указывал), и несмотря на подробный README о процессе создания и в целом высокое качество, я не писал нигде блогпост или мини-статью про этот датасет, но китайские авторы, кажется могут найти вобще что угодно для своей статьи, за что я им и благодарен, хоть и несколько неожиданно (еще и потомучто они испоьзовали очевидно бенчмарковый датасет для тренировки🥴).

Основная мысль такая - пишите микростатьи или блоги если вы чтото выкладвете в опенсорс (особенно если это датасеты), даже если вам кажется что ваша работа не так важна - спустя время ктото обязательно найдет и посчитает ваш труд полезным, а вы получите приятный бонус в виде цитирования (уместного или нет). Довольно очевидно для тех кто профессионально занимается наукой, но эта мысль скорее направлена тем кто именно делает опенсорс.

P.S. Акцент на сложности задач крайне важен для ризонинга и про это в основном все забывают, что зачастую приводит к неверным выводам о том, что ризонинг модели бесполезны если можно делать BoN и получать похожее качество @128 (условно), но ризонинг модели споосбы решать лучше именно более сложные задачи, где обычные модели не справляются за адекватный компьют.
🔥19👍2
Forwarded from AI - Arseny Ivanov
Multimodality_lecture_AIKC.pdf
7.4 MB
⬆️ Провел небольшую лекцию о мультимодальных языковых моделях

С ребятами в AI Knowledge Club сейчас проводим курс, где я выступил с лекцией о развитии мультимодальных моделей, задачах и бенчмарках. Попробую рассказать и вам =)

Когда мы подаем в языковую модель большие объёмы текста, она не просто запоминает слова, но и учится извлекать из них смысл, комбинировать разрозненные фрагменты и решать разнообразные NLP-задачи. Однако чтобы создать действительно универсального ассистента, нам нужно научить модель «видеть», «слышать» и понимать не только текст. Как мы можем научить LLM воспринимать другие типы данных?

👀 Отвечая на этот вопрос, в идеале мы бы хотели построить одну большую foundation модель. В докладе рассмотрены три основных концепта: LLM with Tools - оркестратор с function calling. End2end MLLM - это обучение трансформера напрямую на разных данных. Текст и изображения сначала кодируются соответствующими энкодерами, затем их эмбеддинги смешиваются и подаются в модель, которую учат сразу на обоих модальностях. Cross-Modality Learning with Pretrained Models - адаптация латентного пространства изображений к латентному пространству текстовых представлений. Можно сказать мы учим модель понимать разные типы данных.

✏️ Прежде всего, говоря про визуальную модальность, стоит подчеркнуть развитие картиночных encoder-моделей. Чаще всего используют 2 большие группы: (1) foundation backbone архитектуры ViT-семейства (ConvNeXt, Swin и т.д.), и (2) мультимодальные энкодеры (CLIP, DINOv2, EVA-02, ImageBind) — их берут, когда нужны универсальные признаки из коробки. В докладе вы можете найти объяснение устройства ViT - классического patch-трансформера, адаптации архитектуры под картинки, например Pre-LN и его обучения. А также Swin Transformer - адаптация ViT под fine-grained изображения за счет иерархического окна внимания. В том числе есть еще и ConvNeXt – CNN реализованная под ViT и дообученная masked-autoencoder-ом, даёт SOTA при меньшем FLOPs. Второй это self-supervised методы основанные на контрастивном обучении, которые отлично подходят для vision-text-retrieval задач. В презентации найдете описание базового CLIP, а также про InfoNCE и Triplet лоссы. Среди прочего есть и улучшение CLIP, это SigLIP — идея которого упростить распределённое обучение на очень больших батчах, сохранив при этом качество эмбеддингов. Делается это за счет замены Softmax функции на Sigmoid. Также стоит упомянуть и: DINOv2 – ViT обученный в SSL стиле; EVA-02 – открытый masked image + language-aligned ViT; ImageBind (vision encoder) – единое пространство для шести модальностей. Честно говоря различных улучшений со своими идеями vision-encoder-ов очень много, поэтому проще всего посмотреть топ на задачке image classification на imagenet.

💡 С точки зрения фьюза модальностей, можно выделить 3 основных подхода: Early, Intermediate и Late fusion (подробнее смотри презу). Среди таких следует отметить следующие работы, идеи которых часто переиспользуются:

1) Perceiver (Google DeepMind, 2021). Архитектура основанна на трансформере и использует асимметричный механизм внимания, который может итеративно доставать из входа релевантные данные и агрегировать их внутри себя. Может скейлиться на очень большие размеры входа. Основная идея следующая — давайте заведем маленький набор латентных переменных, которые будут через attention обращаться ко входу (потенциально большому) и таким образом окажутся боттлнеком, который должен отсеять важные части входа. Внутри модели повторяются два основных блока: 1) cross-attention, где Q приходит из низкоразмерной латентной части, а K/V из входа, и 2) обычный self-attention трансформера, который переводит эти latent’ы. Стандартное внимание все также остаётся квадратичным, но оно здесь от низкоразмерного latent’а, что дешевле.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from AI - Arseny Ivanov
2) Perceiver IO (Google DeepMind, 2021) - у персивера есть проблема, хоть он и скейлится на разные входы, его выходы являются простыми — годится для классификации по заданному числу классов, но не подходит для генерации сложных выходов произвольного размера. Основное улучшение сделано в процедуре декодирования, через специально задизайненные query к латентным переменным можно получить выходы нужной структуры (заданной этими query).

3) Flamingo (NeurIPS 2022) - VLM на 80B параметров от DeepMind. Где для visual взята модель а-ля CLIP с Normalizer-Free ResNet картиночным энкодером. А языковая модель это Chinchilla 70B. Использует Perceiver Resampler (про который написано выше) для генерации фиксированного набора визуальных токенов и слои кросс-аттеншена, куда в качестве K и V приходят визуальные токены из Resampler, а в качестве Q приходят токены языка. Используют tanh-гейтинг: выходы новых слоёв умножаются на tanh(α), где α — обучаемый параметр, инициализированный нулём, чтобы модель плавно переходила в VLM. Для лучшего понимания рекомендую почитать из блога.

4) BLIP-2 (CVPR 2023) - использует замороженные visual и text энкодеры, а основной частью является Q-former, который служит связующим звеном между визуальной и текстовой модальностями. И делают это за счет обучаемых query-эмбеддингов, взаимодействующих с визуальными признаками через cross-attention.

5) LLAVA (NeurIPS 2023 Oral) - в качестве LLM для генерации текста используют LLAMA, картинки энкодят через ViT. Вводят дополнительное преобразование векторов ViT (Z) в новые векторы (H) с помощью обучаемой проекционной матрицы, которые понятны трансформеру LLAMA.

6) FROMAGE (2023, Carnegie Mellon) - вместо отдельных энкодеров-декодеров она объединяет визуальные токены (закодированные через CLIP и линейный слой) и текст в единую последовательность в interleaved стиле, понятную llm'ке OPT. Также добавляют специальный токен [RET], сигнализирующий модели о завершении текстового ввода и переключении на вывод или сравнение изображений. FROMAGe обучается сразу на две задачки: captioning изображений (NTP task, cross-entropy loss) и retrieval текст-картинка (InfoNCE loss), что позволяет эффективно решать сложные задачи, сочетающие текст и визуальную информацию.

7) GILL (NeurIPS 2023) - для меня выглядит как развитие работы FROMAGE, где модель, помимо задач генерации текста и ретривала, может еще генерировать изображения. GILL использует замороженные OPT-6.7B и CLIP-ViT-L/14 и обучает специальный проектор GILLMapper, который отображает выходы LLM в эмбеддинг-пространство SD. Добавляют токены [IMG1]...[IMG{r}] которые в выходной последовательности задают, латентные представления для картинок, которые мы пропускаем через GILLMapper и подаем на вход в SD. Обучаются также как в FROMAGE, только для генераций картинок еще MSE loss.

8) PaliGemma (2024, Google DeepMind) - VLM на основе двух моделей - PaLI и Gemma. На вход - картинки или видео (seq кадров). Учат модель в 4 этапа: (1) Unimodal pretraining — отдельное обучение PaLI и Gemma. (2) Multimodal pretraining — совместное дообучение всего (без заморозки!) на миллиард мультимодальных пар. (3) Resolution tuning - адаптация к высоким разрешениям (до 896 пикселей). (4) Transfer learning — дообучение под задачи VQA, captioning и др. Добавляют prefix-LM: изображения и текст-префиксы обрабатываются с полным bidirectional вниманием, а текст-суффиксы — с автогрессивным casual, что повышает эффективность reasoning и генерации. Уже вышла PaliGemma 2.

9) Qwen2.5-VL (2025, Alibaba) - около SOTA VLM, ориентированная на точную локализацию объектов, анализ документов и длинных видео (до 1 часа). Внутри использует: (1) ViT энкодер, обученный с нуля, с window attention (Swin?), 2D-RoPE и патчами 14×14. (2) Адаптер, агрегирующий патчи в группы по 4 с помощью MLP, что уменьшает вычисления. (3) LLM Qwen2.5 с улучшенным MRoPE (Multimodal Rotary Position Embedding Aligned to Absolute Time). (4) Динамический сэмплинг кадров для видео и interleaved обучение на текст+изображение.
🔥4
Forwarded from AI - Arseny Ivanov
По большей части работы, что я описал, являются фундаментальными и что-то вроде базовыми. Для большего понимания я рекомендую почитать недавно вышедшую статью на HuggingFace блоге о последних трендах в VLM: про reasoning в VLM, MoE-декодеры для VLM, исследование Vision Language Action моделей для робототехники, мультимодал раги, video-understending в VLM.

🐧 В целом я хотел кратко описать то, что я рассказал на выступлении, но вышел еще и вот такой лонгрид. Если вам понравилось, и вы хотите, чтобы я еще глубже попробовал раскрыть тему мультимодальности, например через призму робототехники (VLA, Planning), ставьте ваши реакции и пишите комменты!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
Forwarded from AI[ex]Time (Alex Golubev)
Forwarded from AI[ex]Time (Alex Golubev)
Объемный и очень интересный тех репорт про модель под названием Skywork Open Reasoner 1. Может показаться, что это очередной RL тюн на математические задачи, который обгоняет модели по типу R1-distil, но на самом деле это первый (по крайней мере я не встречал раньше подобных работ) ablation на огромное число факторов, влияющих на процесс обучения с GRPO-like методами. Фильтрация данных, on/off policy trade off, температура при генерации решений, несимметричное клиппирование, token-wise усреднение в лоссе, KL регуляризация и много чего еще — раньше все это встречалось по отдельности в разных работах, а здесь собрано воедино, так еще и со сравнением в одинаковых сетапах.

Но. Помимо этого, авторы заметили следующее: когда модель входит в состоянии низкой энтропии, разнообразие генераций и эффективность обучения снижается. Если такое коллапсирование происходит рано, то прогресс быстро упирается в потолок. Чтобы контролировать этот процесс, предлагается ввести дополнительное слагаемое в лосс, которое будет штрафовать за слишком низкие значения, причем делать это нужно с адаптивным весом, тк энтропия зависит от данных и шага обучения (по этой же причине часто очень тяжело подобрать единый вес для KL-регуляризации). Вообще это супер стандартный подход в классическом RL для поддержания exploration на определенном уровне, но в RL для LLM такое особо не использовали. Ablation на многие факторы проводится как раз с оглядкой на то, как они влияют на динамику энтропии. В общем, репорт на 40 страниц, там очень много познавательных замечаний, советую хотя бы бегло пробежаться.
👍11👎1🔥1
Forwarded from .ml
Многие компании сёрвят LLM

Кто-то использует готовые инструменты, которые предоставляют OpenAI-compatible эндпоинты: например, DeepSeek, развёрнутый через vllm serve. Кому-то не хватает OpenAI-compatible протокола. А кому-то хочется и того, и другого — например, нам в Точке.

С одной стороны, мы хотим уметь ходить в LLM-провайдеры, которые поддерживают общепринятый формат. А с другой стороны у нас есть внутренняя LLM, которую нельзя полностью совместить с OpenAI-протоколом, потому что она поддерживает дополнительные виды контента внутри сообщений и ещё много других плюшек (про них тоже как-нибудь расскажем 👀).


Это непростая инженерная задача, которую нам пришлось решать. Вот мы и написали статью о том, как поднимали свою LLM-инфраструктуру. Текст исключительно инженерный и больше про дизайн всей системы целиком, чем про, например, наши внутренние патчи в популярный фреймворк vllm.

Читайте, комментируйте и рассказывайте, как у вас дела с LLM!
🔥10👍1
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf


Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://news.1rj.ru/str/den4ikresearch
https://news.1rj.ru/str/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
🔥11👍1