Знаете как я понимаю что скоро новый релиз опенаи? Модели тупеют и ОЧЕНЬ значимо
🍓92😁66👍12🥴7💯7
Forwarded from Душный NLP
TDPO — потокенный DPO или просто регуляризация?
Авторы сегодняшней статьи предлагают метод потокенного Direct Preference Optimization (DPO), который на бумаге должен исправить некоторые проблемы оффлайн-обучения с подкреплением. Но на деле все оказывается не так просто.
DPO — метод обучения, не полагающийся на reward-модель. Здесь применяют датасет с размеченными парами запросов и ответов, чтобы натренировать генератор на контрастный лосс.
Проблема в том, что в случае с DPO мы работаем с вероятностями последовательностей целиком. Метод ограниченно контролирует поведение модели на уровне отдельных токенов. Это приводит к тому, что модель может ошибочно сильно повышать или понижать вероятность отдельных токенов значительно после совершенных ошибок.
Эту проблему можно нивелировать, если сделать DPO потокенным. Авторы статьи пытаются добиться этого.
Для начала они предлагают ввести необычное ограничение — сделать так, чтобы сумма наград всех токенов-продолжений для произвольного префикса была равна 0. Это довольно сильное допущение: например, если мы решаем задачу копирования какого-то куска текста, то будем сильно штрафовать модель за любое отклонение. Как результат — награда за правильный токен окажется очень большой. В этом случае, если при выборе между длинной и короткой строкой, модель будет склоняться к длинной строке.
Такое ограничение позволило авторам в их расчётах лосса избавиться от нормировочной константы вероятностного распределения. Чтобы ее вычислить, нужно суммировать награду по всем возможным ответам, а это невозможно, поэтому от константы при расчётах избавляются. В DPO нормировочная константа одинакова для победившего и проигравшего ответов, поэтому она сокращается в лоссе, но авторы статьи сделали это несколько иначе.
Из их математической модели выводится функция, которая очень похожа на DPO. Но в отличие от DPO, авторы вычитают из неё разницу между SeqKL проигравшего и победившего ответа. Этот метод, названный Token-level Direct Preference Optimization (TDPO), обеспечил незначительное улучшение по сравнению с обычным DPO. На датасете Anthropic HH точность увеличилась всего на 0,65%.
Далее авторы предлагают умножить на дополнительный коэффициент разницу SeqKL и не пропускать градиенты для победившего варианта. Это можно трактовать так: при росте SeqKL проигравшего ответа всегда увеличивается лосс, в то время, как при росте SeqKL победившего — лосс уменьшается. Получается, что добавка к DPO, после остановки градиента для её части, по сути работает, как регуляризация.
С ней метод получил название TDPO2 и он действительно неплохо улучшает показатели. На том же Anthropic HH прирост по сравнению с DPO составил уже не 0,65%, а 7,9%.
Авторы действительно предложили лучшее решение. Но возникает вопрос: насколько здесь велик вклад выведенной математической модели. По факту, авторы сильно меняют основные моменты в этой модели, а то, что остается, очень похоже на простую потокенную регуляризацию. Но её идея не нова: часто к DPO добавляют negative log likelihood loss — например, при DPO-обучении Llama 3.1, — что тоже является вариантом потокенной регуляризации. Мы склоняемся к тому, что научный вклад этой статьи невелик, а ключевые выводы — ошибочны.
Разбор подготовил❣ Михаил Хрущев
Душный NLP
Авторы сегодняшней статьи предлагают метод потокенного Direct Preference Optimization (DPO), который на бумаге должен исправить некоторые проблемы оффлайн-обучения с подкреплением. Но на деле все оказывается не так просто.
DPO — метод обучения, не полагающийся на reward-модель. Здесь применяют датасет с размеченными парами запросов и ответов, чтобы натренировать генератор на контрастный лосс.
Проблема в том, что в случае с DPO мы работаем с вероятностями последовательностей целиком. Метод ограниченно контролирует поведение модели на уровне отдельных токенов. Это приводит к тому, что модель может ошибочно сильно повышать или понижать вероятность отдельных токенов значительно после совершенных ошибок.
Эту проблему можно нивелировать, если сделать DPO потокенным. Авторы статьи пытаются добиться этого.
Для начала они предлагают ввести необычное ограничение — сделать так, чтобы сумма наград всех токенов-продолжений для произвольного префикса была равна 0. Это довольно сильное допущение: например, если мы решаем задачу копирования какого-то куска текста, то будем сильно штрафовать модель за любое отклонение. Как результат — награда за правильный токен окажется очень большой. В этом случае, если при выборе между длинной и короткой строкой, модель будет склоняться к длинной строке.
Такое ограничение позволило авторам в их расчётах лосса избавиться от нормировочной константы вероятностного распределения. Чтобы ее вычислить, нужно суммировать награду по всем возможным ответам, а это невозможно, поэтому от константы при расчётах избавляются. В DPO нормировочная константа одинакова для победившего и проигравшего ответов, поэтому она сокращается в лоссе, но авторы статьи сделали это несколько иначе.
Из их математической модели выводится функция, которая очень похожа на DPO. Но в отличие от DPO, авторы вычитают из неё разницу между SeqKL проигравшего и победившего ответа. Этот метод, названный Token-level Direct Preference Optimization (TDPO), обеспечил незначительное улучшение по сравнению с обычным DPO. На датасете Anthropic HH точность увеличилась всего на 0,65%.
Далее авторы предлагают умножить на дополнительный коэффициент разницу SeqKL и не пропускать градиенты для победившего варианта. Это можно трактовать так: при росте SeqKL проигравшего ответа всегда увеличивается лосс, в то время, как при росте SeqKL победившего — лосс уменьшается. Получается, что добавка к DPO, после остановки градиента для её части, по сути работает, как регуляризация.
С ней метод получил название TDPO2 и он действительно неплохо улучшает показатели. На том же Anthropic HH прирост по сравнению с DPO составил уже не 0,65%, а 7,9%.
Авторы действительно предложили лучшее решение. Но возникает вопрос: насколько здесь велик вклад выведенной математической модели. По факту, авторы сильно меняют основные моменты в этой модели, а то, что остается, очень похоже на простую потокенную регуляризацию. Но её идея не нова: часто к DPO добавляют negative log likelihood loss — например, при DPO-обучении Llama 3.1, — что тоже является вариантом потокенной регуляризации. Мы склоняемся к тому, что научный вклад этой статьи невелик, а ключевые выводы — ошибочны.
Разбор подготовил
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🥴1
Forwarded from AI для Всех (Artemii)
Как добавить платежи в AI-агентов с помощью Stripe
Походит к концу мой первый месяц в Страйпе, и про это я напишу отдельно. А пока, hot of the press, расскажу вам про нашу новинку.
Представьте, что у вас есть умный цифровой помощник, который может не только отвечать на вопросы, но и выполнять реальные действия. Например, вы пишете: "Найди билет из Нью-Йорка в Сан-Франциско за 500 долларов", и AI-агент:
1. Понимает ваш запрос и выделяет важные детали
2. Ищет подходящие варианты
3. Показывает вам лучшие предложения
4. И теперь — может даже купить билет!
Stripe выпустил специальный набор инструментов (Agent Toolkit), который работает с популярными AI-фреймворками:
- Vercel AI SDK
- LangChain
- CrewAI
Что это даёт вашему AI-агенту:
- Возможность создавать платежные ссылки
- Выставлять счета клиентам
- Генерировать виртуальные карты для покупок
- Отслеживать все финансовые операции
Пример кода для выставления счета:
Что может делать AI-агент с платежами:
🛍️ Умный шоппинг
- Поиск товаров по вашим критериям
- Сравнение цен
- Безопасная оплата через виртуальные карты
- Контроль бюджета
💼 Бизнес-операции
- Автоматическое выставление счетов
- Отслеживание платежей
- Управление подписками
- Контроль расходов
Stripe Agent Toolkit — это мост между AI и реальными финансовыми операциями. Теперь ваши AI-агенты могут не только думать, но и действовать с деньгами — безопасно и эффективно.
Пробуйте и делитесь фидбеком! Все передам ответственной команде
🐸 Блог-пост
🦾 Agent Toolkit документация
🖥 Git
Походит к концу мой первый месяц в Страйпе, и про это я напишу отдельно. А пока, hot of the press, расскажу вам про нашу новинку.
Представьте, что у вас есть умный цифровой помощник, который может не только отвечать на вопросы, но и выполнять реальные действия. Например, вы пишете: "Найди билет из Нью-Йорка в Сан-Франциско за 500 долларов", и AI-агент:
1. Понимает ваш запрос и выделяет важные детали
2. Ищет подходящие варианты
3. Показывает вам лучшие предложения
4. И теперь — может даже купить билет!
Stripe выпустил специальный набор инструментов (Agent Toolkit), который работает с популярными AI-фреймворками:
- Vercel AI SDK
- LangChain
- CrewAI
Что это даёт вашему AI-агенту:
- Возможность создавать платежные ссылки
- Выставлять счета клиентам
- Генерировать виртуальные карты для покупок
- Отслеживать все финансовые операции
Пример кода для выставления счета:
from stripe_agent_toolkit import StripeAgentToolkit
# Подключаем Stripe к агенту
toolkit = StripeAgentToolkit(
secret_key="sk_test_123",
configuration={
"actions": {
"invoices": {"create": True},
"customers": {"create": True}
}
}
)
# Теперь агент может выставлять счета
agent.invoke("Выставить счет клиенту example@mail.com на $100")
Что может делать AI-агент с платежами:
🛍️ Умный шоппинг
- Поиск товаров по вашим критериям
- Сравнение цен
- Безопасная оплата через виртуальные карты
- Контроль бюджета
💼 Бизнес-операции
- Автоматическое выставление счетов
- Отслеживание платежей
- Управление подписками
- Контроль расходов
Stripe Agent Toolkit — это мост между AI и реальными финансовыми операциями. Теперь ваши AI-агенты могут не только думать, но и действовать с деньгами — безопасно и эффективно.
Пробуйте и делитесь фидбеком! Все передам ответственной команде
🐸 Блог-пост
🦾 Agent Toolkit документация
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡41💅22👍3🔥2
Многие спрашивают почему мне не пофиг на использование AI. Отвечаю – я их ненавижу. Они ублюдки и выродки. Они хотят смерти нам, резерчерам.
3🔥59😁34💊15🙉3🤔2🥴2
https://m.tb.cn/h.TYeNYaV?tk=hs1E3sdmmkX
3400 usd за 48гб карту, которая быстрее чем а6000 и кажется быстрее l40s
3400 usd за 48гб карту, которая быстрее чем а6000 и кажется быстрее l40s
🔥27
gpt5, 3 opus, gemini 2 задерживаются, выходят какие то минорные релизы типа 4o, o1(соре я не решаю каждый день школьную матешу), а сми пишут про scaling is hitting wall. Опять зима, agi 2027 не будет?
- 4о, sonnet 3.5 и прочее учились на сопостовимом с прошлым поколением компьюте, потому что...
- текущее поколение nvidia банально не доехало до основных потребителей)))) Проще говоря все учат на н100, h200 и b100 нет почти не у кого(google, nebius в этом квартале ограниченно их выдают).
Размер кластера который вы можете использовать с эффективной сетевой задержкой вообще то не бесконечен. А еще обучение не бесконечно масштабируется по эффективности(читать подробно)
- FP8 пока что пиздец какой маркетинг, учить(претренить на nvidia) в нем никто не умеет без потерь
- C fp4 ситуация еще хуже, там даже до инференса без потерь не дошли
- Магические железки есть только у гугла, но они не значительно помогают.
- жить на своих железках ОЧЕНЬ И ОЧЕНЬ сложно, без поддержки комьюнити - нереально
- Данные у всех примерно одинаковые, разница между закрытыми данными у oss и закрытых моделей вероятно минимальна(не считая синты)
- Новых (стоящих) архитектур пока все еще нет, стоящих работ пока все еще нет
- Agentов учатся учить с sft степа, пока что ничего дельного не выходит, думаю вопрос нормальной синты(ее все еще нет, потому что нет нормальных env, а нормальных env нет потому что вебмакаки не умеют в perfomance и эти ваши multi cpu)
- Мы не увидим значимых шагов качества базовых моделей еще от трех месяцев до года.
- Китайские компании вероятно выкатят еще больше годноты. kling, qwen - только начало.
- ебучих копий o1 и cot/mcts/долгих генераций будет ОЧЕНЬ много
- bitter lesson придет за всеми кто его не усвоил.
А, чо там по качеству фотомоделей? cигмоиду достигли уже? пальцы починились?)
Собственно качество фотомоделей пришло к тому что уже не понятно - где mj, flux и тд. Разница есть но ее надо искать под микроскопом, raw режим flux пробил фото реализм и теперь генерации дейстивительно не отличимы от фото, но размер простыни промпта для такого качества абсолютно неадекватен.
Вы правда думаете что с текстом будет по другому?
Верить ли моим оценкам? Конечно нет лол, я просто чувак из тыктырнета))
- 4о, sonnet 3.5 и прочее учились на сопостовимом с прошлым поколением компьюте, потому что...
- текущее поколение nvidia банально не доехало до основных потребителей)))) Проще говоря все учат на н100, h200 и b100 нет почти не у кого(google, nebius в этом квартале ограниченно их выдают).
Размер кластера который вы можете использовать с эффективной сетевой задержкой вообще то не бесконечен. А еще обучение не бесконечно масштабируется по эффективности(читать подробно)
- FP8 пока что пиздец какой маркетинг, учить(претренить на nvidia) в нем никто не умеет без потерь
- C fp4 ситуация еще хуже, там даже до инференса без потерь не дошли
- Магические железки есть только у гугла, но они не значительно помогают.
- жить на своих железках ОЧЕНЬ И ОЧЕНЬ сложно, без поддержки комьюнити - нереально
- Данные у всех примерно одинаковые, разница между закрытыми данными у oss и закрытых моделей вероятно минимальна(не считая синты)
- Новых (стоящих) архитектур пока все еще нет, стоящих работ пока все еще нет
- Agentов учатся учить с sft степа, пока что ничего дельного не выходит, думаю вопрос нормальной синты(ее все еще нет, потому что нет нормальных env, а нормальных env нет потому что вебмакаки не умеют в perfomance и эти ваши multi cpu)
- Мы не увидим значимых шагов качества базовых моделей еще от трех месяцев до года.
- Китайские компании вероятно выкатят еще больше годноты. kling, qwen - только начало.
- ебучих копий o1 и cot/mcts/долгих генераций будет ОЧЕНЬ много
- bitter lesson придет за всеми кто его не усвоил.
А, чо там по качеству фотомоделей? cигмоиду достигли уже? пальцы починились?)
Собственно качество фотомоделей пришло к тому что уже не понятно - где mj, flux и тд. Разница есть но ее надо искать под микроскопом, raw режим flux пробил фото реализм и теперь генерации дейстивительно не отличимы от фото, но размер простыни промпта для такого качества абсолютно неадекватен.
Вы правда думаете что с текстом будет по другому?
Верить ли моим оценкам? Конечно нет лол, я просто чувак из тыктырнета))
2👍39 22🔥3🤡3🤔1💯1
cобственно мы наблюдаем это в том числе по mmlu(бенч говно, но на остальных будут очень похожие картинки)
Oss большие тушки стали не значительно хуже закрытых, но для открытых сильно больше инфры, так что вопрос времени когда на агентских бенчах и прочем oss обгонет cls.
Ну и кажется aren_а доломали, теперь она окончательно сломана. по другому обьяснить gemeni на 1 месте не могу.
Oss большие тушки стали не значительно хуже закрытых, но для открытых сильно больше инфры, так что вопрос времени когда на агентских бенчах и прочем oss обгонет cls.
Ну и кажется aren_а доломали, теперь она окончательно сломана. по другому обьяснить gemeni на 1 месте не могу.
👍22🆒1
Мистраль забили(?) окупать le platform и дропнули large модели на хф тоже
модель
А еще выложили ОГРОМНЫЙ(120+b) pixtral lol который скорее всего сопостовим по качеству с molmo
В метриках "забыли" molmo и qwen
модель
А еще выложили ОГРОМНЫЙ(120+b) pixtral lol который скорее всего сопостовим по качеству с molmo
В метриках "забыли" molmo и qwen
😁46👍18🍓4🔥2
Forwarded from NLP семинар, ЛЕЯ (ВШЭ СПб)
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
👍31🤡14👎8🤮6🌚1
NLP семинар, ЛЕЯ (ВШЭ СПб)
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом: “Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском” Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
Мы достигли лимита по юзерам, чтож, спасибо Яндекс телемост за 40 юзеров в звонке и спасибо что явно упомянули это, выложим запись!
50😁88💩20🥴11 7👍6🔥1
Forwarded from Vikhr models
К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.
YouTube
Slides
YouTube
Slides
100👏27💩9👎3👍2🤮2🤡2
Ресерчам приходится делать ОТВРАТИТЕЛЬНЫЕ вещи когда скейлинг не работает, вот примеры:
- ПОСМОТРЕТЬ данные руками
- открыть помимо конфига обучения ещё и код(ваще мясо)
- перестать придумывать свои велосипеды когда фреймворк перестал работать
- скачать ВСЕ страницы документации pytorch lighting, потому что открывается только из под впна
- выкинуть любимый скрипт на torch lighting для обучения
- обновить transformers
- ПОСМОТРЕТЬ ДОКУМЕНТАЦИЮ
- Закрыть х, реддит, доту и отменить предзаказ на turms
- ПОСМОТРЕТЬ данные руками
- открыть помимо конфига обучения ещё и код(ваще мясо)
- перестать придумывать свои велосипеды когда фреймворк перестал работать
- скачать ВСЕ страницы документации pytorch lighting, потому что открывается только из под впна
- выкинуть любимый скрипт на torch lighting для обучения
- обновить transformers
- ПОСМОТРЕТЬ ДОКУМЕНТАЦИЮ
- Закрыть х, реддит, доту и отменить предзаказ на turms
😁124😨32💔9👎5👍4😢4🥴3❤🔥1🌚1
Love. Death. Transformers.
Интересно кстати к чему полезному можно приложить такую скорость. Для groq не придумали, но там и ллама всего 70б была. Посмотрим что будет тут.
Решил я почту полистать значит... А у меня приглос в бету церебраса лежал