NEW BOT Телеграм, страница

Плюшевый Питон

Дополнение про min-p

Как известно, семплеры (температура, top-p, top-k, позже Mirostat, min-p, DRY, XTC и другие) изначально были придуманы, чтобы компенсировать недостатки обучения GPT-подобных языковых моделей.

Такие модели на этапе претрейна и SFT учатся решать задачу _классификации_ (наиболее правдоподобного следующего токена). Inductive bias здесь в предположении, что на каждом шаге порождения текста может быть только один правильный следующий токен. В природе это не так ("Они решили назвать свою дочь <?>" - какой здесь единственный правильный следущий токен?). В обучающих данных это требование тоже не обязано соблюдаться - например, в SFT у вас могут быть разные эталонные ответы на один и тот же промпт.

Могут ли модели научиться в таком режиме генерировать связный текст, не содержащий внутренних противоречий? Да. Но как сделать так, чтобы ответы модели были ещё и разнообразными? Если на каждом шаге генерации брать самый вероятный токен - у вас всегда будут получаться одинаковые ответы на один и тот же запрос. Есть ситуации, когда важно разнообразие и возможность получить несколько неодинаковых ответов. Например, при решении творческих задач: брейншторминг, рерайтинг, ролплей и т.п. Тут на помощь и приходит семплирование. Сильно упрощая, оно позволяет нам не всегда брать самый вероятный токен, что делает ответы более живыми и разнообразными. Однако важно семплировать аккуратно, чтобы не сбиться с мысли и не начать порождать бред. 😵

Классические семплеры, такие как температура и top-p, чувствительны к выбору модели и к решаемой задаче. Например, насыщенные модели, которые обучались на очень большом количестве токенов, требуют более высокой температуры, если нужно разнообразие генераций. Магия же min-p как раз в том, что мы можем использовать одни и те же параметры семплирования практически на любой модели и задаче, и при этом стабильно получать связные и разнообразные ответы. 🙄

Интересно, что этот семплер появился уже довольно давно в сообществе LLM-ролплееров, использующих локальные модели. Вот один из ключевых постов его автора, наглядно разъясняющий его преимущества и недостатки традиционных семплеров. Пост был опубликован в r/LocalLLaMA ещё в ноябре 2023 года!

Я регулярно пользуюсь min-p в личных проектах и экспериментах с локальными моделями уже около года. Это единственный семплер, который у меня включен по дефолту - я не использую top-k, top-p и т.д. Он отлично подходит для всего, кроме, пожалуй, замера бенчмарков, но это особый случай. Если ещё не пробовали в своих задачах - попробуйте! 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

From the LocalLLaMA community on Reddit: Your settings are (probably) hurting your model - Why sampler settings matter

Explore this post and more from the LocalLLaMA community

833 views09:53

Плюшевый Питон

Снова мой обзор, снова зарепощу, чего уж

613 views10:08

Плюшевый Питон

Forwarded from Душный NLP

Технический отчёт Qwen2.5-Coder

Qwen2.5-Coder — семейство моделей, предназначенных для генерации кода. Его технический отчёт вышел ещё в прошлом году, но там много интересного, что стоит разобрать. Этим и займёмся.

Модель учили работать как с отдельными файлами, так и с целыми репозиториями. Что касается токенизации, то авторы взяли словарь Qwen2.5 на 151,646 токенов, но добавили к нему спецтокены. Например, для обучения в режиме Fill-in-the-Middle (FIM).

В датасете для допретрейна было пять типов данных:

— код на 92 языках программирования — примеры брали с GitHub до февраля 2024 года. Использовали фильтры на эвристиках, чтобы отсеять некачественные данные;
— text-code grounding data — уже не только код, но и документация, руководства. Использовали итеративную иерархическую фильтрацию: сперва брали большой массив данных, но с каждым шагом фильтрации их становилось всё меньше;
— синтетические данные — их генерировали с помощью CodeQwen1.5. Оставляли только выполнявшийся код;
— математические данные — использовали претрейн-датасет Qwen2.5-Math;
— текст — использовали данные из претрейна Qwen2.5, но без кода. Авторы хотели, чтобы модель получилась достаточно универсальной и умела решать различные задачи, а не только связанные с программированием. По результатам бенчмарков, лучше всего себя показала пропорция кода, математики и текста — 7:2:1.

Сперва был допретрейн на уровне файлов. Контекстное окно тут составляло не более 8 тысяч токенов. Здесь как раз и использовали FIM. Следом шло обучение на уровне репозиториев с контекстным окном до 32 тысяч токенов за счёт увеличения параметра RoPE base до миллиона. Для экстраполяции до 128 тысяч применяли технику YARN.

На посттрейне обучили модель CodeBERT, чтобы классифицировать документы по примерно сотне языков программирования. При этом авторы сохраняли все найденные документы на популярных языках, а те, которые написаны на редких — частично удаляли. Кроме того, убирали все примеры без кода, потому что на этапе инструктивного обучения они ухудшали показатели на бенчмарках.

Для репозиториев на GitHub генерировали инструкции неназванной в отчёте LLM, а с помощью другой модели — тоже неназванной — создавали ответы. Третья LLM занималась фильтрацией полученных пар. Для повышения точности использовали фьюшот на опенсорсных инстракт-датасетах — например, McEval-Instruct.

Для формирования мультиязычного SFT-датасета использовали языкоспецефичных агентов, у каждого из которых, как заявляют авторы, был свой банк памяти с историей генераций. В целом, в техническом отчёте не хватает конкретики по SFT-датасету. Оценка получившихся пар примеров производилась по чеклисту из 9 параметров. Среди них: соответствие ответа вопросу, сложность, наличие кода, его правильность и ясность.

Самый трудный с точки зрения разработки элемент — это мультиязычная «песочница». Нужно было обеспечить поддержку каждого из 92 языков программирования, собрать репозиторий эталонного кода, создать генераторы юнит-тестов, движки выполнения и анализаторы результатов. «Песочница» — вещь итеративная, которая нуждается в постоянной поддержке. Для этого разработчики привлекли экспертов, что делает «песочницу» особенно ресурсозатратной.

SFT сперва осуществлялся на нескольких десятках миллионов не слишком качественных, но разнообразных примеров. Затем с помощью rejection sampling выборка снижалась до нескольких миллионов лучших сэмплов.

Чтобы на этапе SFT модель не разучилась работать с длинным контекстом, авторы использовали короткие инстракт-сэмплы с FIM. При этом добавленный контекст — синтаксис — получался с помощью парсинга библиотекой Tree-sitter-languages. Примеров, обогащённых контекстом, было меньше, чем обычных SFT-данных.

В рамках DPO использовали RLEF для сигналов о том, что код работает, а также юнит-тесты для некоторых примеров. Были и примеры без кода, чтобы модель могла решать задачи, не связанные с программированием. В качестве LLM-as-a-judge выступала 4о.

Разбор подготовил ❣ Алексей Малафеев

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

878 views10:08

Плюшевый Питон

Perplexity через SFT "расцензурили" DeepSeek-R1 🤡

Рецепт:

1) Классификатор проблемных промптов (мультиязычный!)
2) Создание рассуждений в стиле R1 (неужели вручную писали)
3) Оценка человеками расцензуренности и сравнение с другими LLM
4) Также убедились, что нет сильной просадки на бенчах (но небольшая всё равно есть)

Столько сил, чтобы про ту самую площадь поспрашивать... 🤦‍♂️ Заняться людям нечем

912 views19:17

Плюшевый Питон

Наша команда выпустила хорошую небольшую модельку для русского языка в опенсорс, да ещё и с коммерческой лицензией. Модель можно и локально гонять на консьюмерском железе (есть GGUF). Попробуйте!

723 views09:24

Плюшевый Питон

Forwarded from ML Underhood

YandexGPT 5 Lite Instruct теперь в опенсорсе 🎉

В феврале в открытый доступ вышла Pretrain-версия, а сейчас очередь дошла и до YandexGPT 5 Lite Instruct. Это модель на 8 миллиардов параметров с размером контекстного окна в 32К токенов.

О претрейне мы уже писали вот тут, а алайнмент аналогичен тому, через который проходит YandexGPT 5 Pro. На этапе SFT концентрировались на сложных запросах, а также методах фильтрации и ранжирования данных. В рамках RLHF комбинировали RL-подходы, которые дают лучшие результаты: DPO, LogDPO и PPO. Подробнее об этом читайте на Хабре.

По результатам внутреннего слепого попарного сравнения (side-by-side) новая модель YandexGPT 5 Lite превосходит Qwen-2.5-7B-instruct в 62% случаев и не уступает GPT-4o mini в решении стандартных задач сервисов Яндекса. Показатели бенчмарков можно посмотреть в таблице.

А ещё обновили лицензию: теперь можно использовать модель не только в некоммерческих целях, но и в коммерческих до 10 миллионов выходных токенов в месяц. Если ваши объёмы выше, напишите на почту, указанную в тексте лицензии.

Модель доступна на Hugging Face. Там же есть и квантизованная версия с поддержкой GGUF . YandexGPT 5 Lite Instruct совместима с llama.cpp и Ollama.

ML Underhood

941 views09:24

Плюшевый Питон

Недавно вышел обновлённый DeepSeek-R1. Умельцы с реддита сделали кластеризацию ответов разных моделей (в том числе старого и нового R1) на одни и те промпты. Обнаружилось, что новый дипсик стал гораздо ближе к моделям от Google, чем к моделям от OpenAI, как раньше (картинка). Речь не про качество ответов, а про лексико-стилистические характеристики. Это вычислительный, а не ручной анализ - результат основан на отклонениях частот слов и n-граммов от человеческого бейслайна. 👨‍💻 Чуть подробнее тут.

Что это означает? Раньше разработчики дипсика больше ориентировались на модели от OpenAI, а сейчас дистиллируют Gemini. Возможно, гугловские модели просто легче/дешевле прокачивать в больших объёмах. А может, их генерации больше соответствуют представлениям о прекрасном китайских инженеров. В любом случае, интересный поворот. 😵

На дендрограмме видно, что и клоды, и мистрали, и лламы образуют довольно устойчивые кластеры. Хотя есть и пара неожиданных сближений (грок и гпт-4.5, гемма3 12б и гпт-3.5). Не знаю, насколько стоит доверять этим результатам, но выглядит красиво. 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

862 views09:52

Плюшевый Питон

Поскольку про работу не могу писать из-за NDA, то пожалуй, буду больше рассказывать о своих пет-проектах, старых и новых 👨‍💻

Начну с самого большого из них – KFW (сокращение от Kung-Fu World), пошаговая текстовая ролевая игра с режимом hot seat. Разрабатывал её несколько лет начиная с 2013 года. Вдохновлялся преимущественно старыми фильмами категории "Б" о китайском кунг-фу, но не мог не добавить кучу отсылок на современную поп-культуру и немного кринжового юмора.

Действие происходит в мифологизированном китайском Фошане. Вы играете за начинающего адепта кунг-фу. Усердно тренируясь и принимая непростые решения на суровых улицах города, который ещё предстоит очистить от преступности, вы улучшаете свои боевые навыки, чтобы защищать слабых от угнетателей, соревноваться с другими адептами и однажды основать собственную школу боевых искусств. 😡

Особенности проекта:

* Можно играть одному или с друзьями (за одним экраном, по очереди, – это и есть hot seat)
* Можно также добавить нескольких ИИ-игроков для пущего веселья. Это не просто NPC, которые есть в игре в любом случае, а именно конкурирующие с вами полноценные игроки
* Много случайно генерируемого контента: десятки тысяч уникальных стилей, приёмов и т.д.
* Упоротая ASCII-”графика” для боевого режима, сам рисовал ❤️
* Стек – чистый Питон, никаких внешних зависимостей для собственно игры (хотя в процессе разработки использовал пару классических ML-библиотек)
* 12 тысяч строк кода (что конечно не много). Вот бы это когда-нибудь отрефакторить…
* ИИ для боёв обучен с помощью собственной реализации генетического алгоритма
* Прогнозирование исхода боя классическим машинным обучением (логистическая регрессия)

Выложил KFW несколько лет назад в репозитории на гитхабе, никогда особо не рекламировал и не продвигал (не люблю и не умею это делать), но вот сегодня решил поделиться, вдруг вам будет интересно🥰

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - AlexeyMalafeev/kfw-the-game: Kung-Fu World - a fun turn-based hot-seat role-playing game

Kung-Fu World - a fun turn-based hot-seat role-playing game - GitHub - AlexeyMalafeev/kfw-the-game: Kung-Fu World - a fun turn-based hot-seat role-playing game

1.53K views15:29

Плюшевый Питон

Поделюсь одной полезной практикой, к которой часто прибегаю. Если вам, как и мне, приходится много читать, то вы наверное замечали, что прочтённое имеет свойство быстро забываться. 😭 Поэтому полезно делать заметки (т.н. "внешняя память"). Но писать заметки руками - долго и лениво. И вот тут здорово помогают LLM-ки - ими можно извлекать ключевые тезисы из текстов и куда-то сохранять для дальнейшего использования. Процесс у меня обычно такой:

1. Читаю текст с Android-девайса
2. Копирую текст и добавляю к нему один из промптов, сохранённых в паттерны автозамены в клавиатуре SwiftKey*
3. Отдаю текст + промпт LLM-ке
4. Отправляю заметку вместе со ссылкой на исходный текст в нужный топик в группу в Телеграме, специально созданную для сохранёнок

* - Т.е. вместо того, чтобы писать весь промпт заново или откуда-то его копировать, набираем короткую последовательность символов, например “sum”, и в подсказках клавиатурного приложения появляется вариант “распаковки” этой последовательности в целый промпт

Отдельные инструменты тут легко заменить на другие, более подходящие лично для вас. Например, кому-то удобнее читать с макбука, тогда вместо SwiftKey для быстрой вставки промптов можно взять, например, Punto Switcher, там есть “Автозамена”. Также и с моделями: для суммаризации на русском и английском лично я предпочитаю Sonnet 3.7, но вы можете использовать свою любимую модель. ❤️

Ещё у меня есть большой набор промптов, которые различаются, например, степенью желаемой детализации. Ниже несколько примеров вместе с шорткатами, забирайте, если понравятся:

“сум” = Выдели ключевые мысли из данного текста в виде буллет-поинтов
“сум3” = Вырази главные мысли (не более трёх) из этого текста в максимально краткой и лаконичной форме
“сум1” = Вырази самую суть этого текста в максимально краткой и лаконичной форме, одним предложением

А вы делаете что-то подобное? Может, как-то ещё применяете LLM-ки в повседневной жизни? Делитесь своими лучшими практиками в комментариях! 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

1.18K views10:02

Плюшевый Питон

Попросил одну модель поправить мне взгляд на фото (я там смотрел вниз, а надо, чтобы в камеру). Загрузил фотку, дал инструкцию. Вот что она мне выдала

883 views08:56

Плюшевый Питон

Несколько дней назад одна компания взяла и запустила бенчмарк для LLM, где мировые ИИ-модели соревнуются в игре на бирже. Моделям дали по $10К и отправили торговать в реальном времени 😎

Этот бенчмарк на самом деле заслуживает внимания - под него нельзя переобучиться. Если бы можно было легко и надёжно предсказывать будущее по историческим данным, то торговля на бирже потеряла бы смысл 😵

Но особенно интересно, что хайповый GPT-5 уже спустил почти все деньги, а якобы "отстающие" китайские модели Qwen3-Max и DeepSeek заработали по несколько тысяч долларов. Это крутой результат, я впервые за долгое время впечатлён возможностями (некоторых) LLM 👍

Хотя, конечно, ловкая торговля на бирже - не главное, что хотелось бы получить от ИИ. Посмотрим, что будет дальше 👋

Бенчмарк тут:
nof1.ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

624 views09:13

About

Blog

Apps

Platform