Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
GigaChat отвечает за свои слова — на вопросы об исторических событиях и личностях сервис предоставляет информацию со ссылками на источники. Перейти по ним и прочитать подробнее можно прямо из ответа. Функция работает благодаря системе генерации на основе качественной поисковой выдачи GigaSearch.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍4⚡1👎1
⚡️ruMT-Bench: генеративный подход к оценке alignment для LLM на русском языке
Несколько месяцев назад мы реализовали генеративный подход к оценке чат версий моделей основанный на MT-Bench. Выкладываем также бенчмарк в открытый доступ. Несмотря на то, что MT-Bench адаптированный под русский язык уже выкладывали , мы делимся своей версией с тщательным переводом асессорами на русский язык, и демонстрируем возможности подхода для моделей доступных на русском языке.
ruMT-Bench содержит инструктивные multi-turn вопросы, разбитые по 8 различным областям знаний. GPT-4 оценивает ответы моделей по шкале от 1 до 10. Окончательная оценка определяется средним значением по всем репликам. Для некоторых сложных задач, требующих точного ответа (например, математика и код), в промт судьи (GPT-4) включается эталонный ответ, который помогает оценить ответы от модели. Замеры на корреляцию с оценками асессоров на lm-sys чат-бот арене показали [ссылка1,ссылка2], из которого следует вывод, что MT-Bench сильнее других бенчмарков на английском языке коррелирует с оценками людей.
GitHub | 🤗Huggingface
Несколько месяцев назад мы реализовали генеративный подход к оценке чат версий моделей основанный на MT-Bench. Выкладываем также бенчмарк в открытый доступ. Несмотря на то, что MT-Bench адаптированный под русский язык уже выкладывали , мы делимся своей версией с тщательным переводом асессорами на русский язык, и демонстрируем возможности подхода для моделей доступных на русском языке.
ruMT-Bench содержит инструктивные multi-turn вопросы, разбитые по 8 различным областям знаний. GPT-4 оценивает ответы моделей по шкале от 1 до 10. Окончательная оценка определяется средним значением по всем репликам. Для некоторых сложных задач, требующих точного ответа (например, математика и код), в промт судьи (GPT-4) включается эталонный ответ, который помогает оценить ответы от модели. Замеры на корреляцию с оценками асессоров на lm-sys чат-бот арене показали [ссылка1,ссылка2], из которого следует вывод, что MT-Bench сильнее других бенчмарков на английском языке коррелирует с оценками людей.
GitHub | 🤗Huggingface
👍22🔥9👏5⚡2❤1🥰1
Вот про наше детище рассказывает популярный блогер. Приятно. Спасибо!😊
👏3👍2🔥1
Forwarded from Владилен: IT в эпоху AI
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатный Copilot
Ловите небольшой подгон. Потому что, кто не знал, есть такой инструмент как GigaCode
И он позволяет встроить бесплатный ассистент по коду. В целом - удобно
Надо более расширенный материал или гайд как лучше пользоваться им?
👩💻 - да давай
👩💻 - и на этом спасибо, сами разберемся
Ловите небольшой подгон. Потому что, кто не знал, есть такой инструмент как GigaCode
И он позволяет встроить бесплатный ассистент по коду. В целом - удобно
Надо более расширенный материал или гайд как лучше пользоваться им?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48👍12⚡4❤2👎2🌭2
This media is not supported in your browser
VIEW IN TELEGRAM
CodeChat в GigaCode 🚀🚀🚀
CodeChat поможет оптимизировать или отрефакторить имеющийся код, сгенерировать тесты или документацию, а также объяснить или написать код под конкретную задачу. Задавайте вопросы как по всему открытому файлу, так и по определенному фрагменту кода — просто выделите его в редакторе и сформулируйте запрос к CodeChat.
CodeChat умеет отвечать на вопросы не только про код.
Просто обновите плагин в вашей IDE. Если еще не пробовали GigaCode то направляем вас сюда https://gigacode.ru
Чуть позже расскажем про метрики нашей CodeChat модели.
CodeChat поможет оптимизировать или отрефакторить имеющийся код, сгенерировать тесты или документацию, а также объяснить или написать код под конкретную задачу. Задавайте вопросы как по всему открытому файлу, так и по определенному фрагменту кода — просто выделите его в редакторе и сформулируйте запрос к CodeChat.
CodeChat умеет отвечать на вопросы не только про код.
Просто обновите плагин в вашей IDE. Если еще не пробовали GigaCode то направляем вас сюда https://gigacode.ru
Чуть позже расскажем про метрики нашей CodeChat модели.
🔥20🎉8🤮5👍3❤🔥2
Forwarded from Machinelearning
NLP Researchers, отметьте в календаре 26 октября🌟
Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер.
Мы создаем AI ассистента разработчика – GigaCode. Наши модели помогают писать 80к строк кода ежедневно! Решаем задачи по различным подходам в NLP и PLP, проводим ресёрч-эксперименты и обучаем новые SOTA LLM.
В работе используем: NLP, DL, ML, Python, Pytorch, Transformers, FSDP, Deepspeed.
Чем предстоит заниматься?
✅ реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами.
✅ проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов.
✅ обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей.
Если вы амбициозны и готовы к новым вызовам в PLP и/или NLP направлениях, регистрируйтесь на One Day Offer!
Будем делать важнейшие исследования вместе!💚
Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер.
Мы создаем AI ассистента разработчика – GigaCode. Наши модели помогают писать 80к строк кода ежедневно! Решаем задачи по различным подходам в NLP и PLP, проводим ресёрч-эксперименты и обучаем новые SOTA LLM.
В работе используем: NLP, DL, ML, Python, Pytorch, Transformers, FSDP, Deepspeed.
Чем предстоит заниматься?
✅ реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами.
✅ проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов.
✅ обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей.
Если вы амбициозны и готовы к новым вызовам в PLP и/или NLP направлениях, регистрируйтесь на One Day Offer!
Будем делать важнейшие исследования вместе!💚
👍13🔥8🥰4❤3👎1
Ищем таланты. Приходите к нам на one day offer. Если вас драйвит заниматься исследованиями и делать крутые модели для разработчиков, то давайте к нам!)
🔥17👍12👨💻4👎1😁1
Forwarded from GigaDev — разработка GigaChat
Релиз Giga-Embeddings-instruct! (ссылка на hugging-face)
Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.
Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).
Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.
За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.
(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.
Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).
Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.
За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.
(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
huggingface.co
ai-sage/Giga-Embeddings-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍25🔥9🎉8❤7
Команда, спасибо! Новая точка отсчета для нашего канала.
Команда, я благадарен вам за исследовательскую атмосферу, за стремление создавать что-то полезное здесь и сейчас. За 4 года мы проделали огромный путь. В начале мы и представить не могли, каких результатов мы сумеем достичь. Много моделей нами было обучено, некоторые мы опубликовали в опенсорс (ruBert, ruRoberta, ruT5, ruGpt2, ruGpt3, FRED-T5), ряд бенчмарков выпустили, активно участвовали в GigaChat, ну и конечно GigaCode — наше детище. Команда, я бесконечно благодарен вам за вашу поддержку и вашу смелость. Большое счастье ощущать себя частью такой команды!
Время идет и все меняется. Друзья, подписчики, к сожалению, команды с таким именем в Сбере больше не существует. Большинство из нас объединены стремлением контрибьютить в опенсорс. Этот канал нас объединяет. В нем, как и раньше, будем делиться нашими мыслями, обзорами на пейперы и результами. Под именем NLP_Core_Team следует воспринимать как группу NLP энтузиастов, которые время от времени, в свободное от основной работы, что-то публикуют и делают для опенсорс.
Правда, последнее время мы мало писали в канал. Уж извините, были заняты другим)) Мы исправимся. Сейчас у меня времени сильно больше и куча желания делиться мыслями. Испытываю вдохновение перед новыми вызовами.
Будем считать, что у нашего канала новая точка отсчета вступая в новый год.
Друзья, всех с наступающим Новым Годом! Новых SOTA результатов, новых моделей, вдохновения на новые свершения, исследовательской смелости ну и конечно же здоровья!))🎄 🎄 🎄 🔥 🔥 🔥 🎉 🎉 🎉
Команда, я благадарен вам за исследовательскую атмосферу, за стремление создавать что-то полезное здесь и сейчас. За 4 года мы проделали огромный путь. В начале мы и представить не могли, каких результатов мы сумеем достичь. Много моделей нами было обучено, некоторые мы опубликовали в опенсорс (ruBert, ruRoberta, ruT5, ruGpt2, ruGpt3, FRED-T5), ряд бенчмарков выпустили, активно участвовали в GigaChat, ну и конечно GigaCode — наше детище. Команда, я бесконечно благодарен вам за вашу поддержку и вашу смелость. Большое счастье ощущать себя частью такой команды!
Время идет и все меняется. Друзья, подписчики, к сожалению, команды с таким именем в Сбере больше не существует. Большинство из нас объединены стремлением контрибьютить в опенсорс. Этот канал нас объединяет. В нем, как и раньше, будем делиться нашими мыслями, обзорами на пейперы и результами. Под именем NLP_Core_Team следует воспринимать как группу NLP энтузиастов, которые время от времени, в свободное от основной работы, что-то публикуют и делают для опенсорс.
Правда, последнее время мы мало писали в канал. Уж извините, были заняты другим)) Мы исправимся. Сейчас у меня времени сильно больше и куча желания делиться мыслями. Испытываю вдохновение перед новыми вызовами.
Будем считать, что у нашего канала новая точка отсчета вступая в новый год.
Друзья, всех с наступающим Новым Годом! Новых SOTA результатов, новых моделей, вдохновения на новые свершения, исследовательской смелости ну и конечно же здоровья!))
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42❤17😢7❤🔥6👏5👍4🍾2
🔥DeepSeek-V3
Немного запоздалый пост. Модель вышла как неделю. Привычно видеть выход новых открытых моделей, которые все выше и выше по метрикам. Но тут другое дело. Настал час, когда открытые модели уже по метрикам сильнее закрытых. DeepSeek V3 первая модель с топовыми метриками и с сильно дешевым инференсом от DeepSeek. Если GPT4o стоит $10 за 1M токенов на генерации то DeepSeek V3 стоит $1.1 а до 8 февраля $0.28.
Из ключевого о модели:
- Модель с архитектурой Mixture-of-Experts (MoE), содержащая 671 миллиард параметров, из которых активируется 37 миллиардов для каждого токена. 256 маршрутизируемых экспертов + 1 общий экспертов. Каждый токен активирует **8 маршрутезируемых экспертов.
- Использует Multi-head Latent Attention.
- Добавили Multi-Token Prediction что улучшает общую производительность на обучении и инференсе.
- Модель обучена на 14.8 триллионах токенов с FP8.
- Модель обучалась с добавлением Fill-in-Middle (FIM) задачи. Пишут что FIM не мешает задаче предикта следующего токена и улучшает метрики в кодовых тасках, где важен FIM.
- Сделали дистилляцию знаний из модели DeepSeek-R1 для улучшения способностей к рассуждению.
Модель по кодовым метрикам часто сильнее Claude 3.5 Sonnet, которая считается топовой для кода.
Потыкал DeepSeek на русском и я вам скажу она прям хорошо отвечает. Вообще не встретил каких-либо артифактов, которые свойственны моделям видевших русского мало. Сколько было русского у нее в претрейне неизвестно, но по метрикам MMMLU (Multiligual MMLU) она показала 79.4, что сильнее Llama 405B (73.8) и Qwen2.5 72B (74.8).
GitHub
Huggingface
Paper
Немного запоздалый пост. Модель вышла как неделю. Привычно видеть выход новых открытых моделей, которые все выше и выше по метрикам. Но тут другое дело. Настал час, когда открытые модели уже по метрикам сильнее закрытых. DeepSeek V3 первая модель с топовыми метриками и с сильно дешевым инференсом от DeepSeek. Если GPT4o стоит $10 за 1M токенов на генерации то DeepSeek V3 стоит $1.1 а до 8 февраля $0.28.
Из ключевого о модели:
- Модель с архитектурой Mixture-of-Experts (MoE), содержащая 671 миллиард параметров, из которых активируется 37 миллиардов для каждого токена. 256 маршрутизируемых экспертов + 1 общий экспертов. Каждый токен активирует **8 маршрутезируемых экспертов.
- Использует Multi-head Latent Attention.
- Добавили Multi-Token Prediction что улучшает общую производительность на обучении и инференсе.
- Модель обучена на 14.8 триллионах токенов с FP8.
- Модель обучалась с добавлением Fill-in-Middle (FIM) задачи. Пишут что FIM не мешает задаче предикта следующего токена и улучшает метрики в кодовых тасках, где важен FIM.
- Сделали дистилляцию знаний из модели DeepSeek-R1 для улучшения способностей к рассуждению.
Модель по кодовым метрикам часто сильнее Claude 3.5 Sonnet, которая считается топовой для кода.
Потыкал DeepSeek на русском и я вам скажу она прям хорошо отвечает. Вообще не встретил каких-либо артифактов, которые свойственны моделям видевших русского мало. Сколько было русского у нее в претрейне неизвестно, но по метрикам MMMLU (Multiligual MMLU) она показала 79.4, что сильнее Llama 405B (73.8) и Qwen2.5 72B (74.8).
GitHub
Huggingface
Paper
🔥33👍12❤9
🔥SmallThinker-3B-Preview
Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и все на английском. Сначала дообучили на сете от QwQ 1.5 эпохи а после дообучали на обоих сетах 2 эпохи. По моим прикидкам совокупно дообучали до 20B токенов, что совсем не много. Получилась модель, которая очень даже не плохо рассуждает и отвечает особенно учитывая ее размер 3B.
Также можно использовать эту модель в качестве draft модели для модели QwQ 32b на инференсе в режиме speculative decoding, что позволяет ускорить инференс в 1.7 раза в сравнении с инференсом QwQ 32b.
На русском, как и QwQ, она отвечает, но часто вставляет токены из других языков. Вообще конечно интересно, что модель часто вставляя левые токены и при этом это ей не мешает рассуждать и приходить к верному решению.
Huggingface
Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и все на английском. Сначала дообучили на сете от QwQ 1.5 эпохи а после дообучали на обоих сетах 2 эпохи. По моим прикидкам совокупно дообучали до 20B токенов, что совсем не много. Получилась модель, которая очень даже не плохо рассуждает и отвечает особенно учитывая ее размер 3B.
Также можно использовать эту модель в качестве draft модели для модели QwQ 32b на инференсе в режиме speculative decoding, что позволяет ускорить инференс в 1.7 раза в сравнении с инференсом QwQ 32b.
На русском, как и QwQ, она отвечает, но часто вставляет токены из других языков. Вообще конечно интересно, что модель часто вставляя левые токены и при этом это ей не мешает рассуждать и приходить к верному решению.
Huggingface
🔥19👍8👏5❤2
Forwarded from AbstractDL
COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)
С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁
Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.
Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.
Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.
Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.
P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.
Статья, GitHub
С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁
Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.
Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.
Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.
Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.
P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.
Статья, GitHub
👍28🔥19👏7😱1
🔥 DeepSeek R1
Новые открытые модели с ризонингом от DeepSeek, которые рядом по качествту с o1 и очень дешевым инференсом по api.
- DeepSeek-R1-Zero: Модель, обученная исключительно с помощью RL без предварительного SFT. Демонстрирует мощные способности к рассуждению, но сталкивается с проблемами, такими как низкая читаемость и смешение языков. Эта модель представляет интерес больше для исследователей. Оказывается без SFT и только с RL можно научить лучше решать задачи.
- DeepSeek-R1: Включает cold start, SFT и дополнительные этапы RL, что делает её более универсальной, читаемой и безопасной. Показывает результаты, сопоставимые с OpenAI-o1-1217 на задачах, требующих рассуждений.
- Список дообученных опенсорс моделей различных размеров (от 1.5B до 70B параметров) с использованием дистиляции знаний из DeepSeek-R1. Модели демонстрируют топовые метрики для соответствующих размеров.
DeepSeek-R1-Zero обучена только с применением RL. Модель DeepSeek-V3-Base использовалась как начальная точка. Обучение проводилось с помощью алгоритма Group Relative Policy Optimization (GRPO), который оптимизирует политику модели на основе групповых оценок вознаграждений. Использовалась rule-based reward model, которая оценивала правильность ответов (например, решение математических задач) и соблюдение формата вывода.
Интересно, что в процессе RL модель самостоятельно развивала сложные стратегии, такие как пересмотр и переоценка предыдущих шагов (рефлексия) и генерация длинных цепочек рассуждений. Это все без явного пробрасывания в процесс обучения этих знаний. В процессе RL сама пришла к выводу, что чтобы отвечать более правильно нужно больше рассуждать. На картинке есть график, как на протяжении RL обучения растет длина рассуждений в ответах.
DeepSeek-R1 обучена в несколько этапов:
1. Cold Start. Начальное дообучение модели DeepSeek-V3-Base с использованием небольшого набора данных, включающего примеры с длинными цепочками рассуждений .
2. Reasoning-Oriented Reinforcement Learning (RL, ориентированное на рассуждения). Модель обучалась также как и DeepSeek-R1-Zero с помощью алгоритма Group Relative Policy Optimization (GRPO) и rule-based reward model
3. Rejection Sampling and SFT. Модель дообучалась на отобранных данных (около 800,000 примеров), включая:
- Reasoning data: Задачи, требующие рассуждений (600,000 примеров). Использовали модель с предидущего этапа RL. Модель генерировала несколько ответов для каждого промпта, и только правильные и хорошо отформатированные ответы отбирались для дальнейшего обучения.
- Non-reasoning data: отобрали общие задачи из SFT датасета DeepSeek V3 такие как письмо, фактологический QA и перевод (200,000 примеров).
4. Ну и в конце RL для всех сценариев. Модель прошла дополнительный этап RL, направленный на улучшение её полезности и безопасности в различных сценариях.
GitHub
Paper
Новые открытые модели с ризонингом от DeepSeek, которые рядом по качествту с o1 и очень дешевым инференсом по api.
- DeepSeek-R1-Zero: Модель, обученная исключительно с помощью RL без предварительного SFT. Демонстрирует мощные способности к рассуждению, но сталкивается с проблемами, такими как низкая читаемость и смешение языков. Эта модель представляет интерес больше для исследователей. Оказывается без SFT и только с RL можно научить лучше решать задачи.
- DeepSeek-R1: Включает cold start, SFT и дополнительные этапы RL, что делает её более универсальной, читаемой и безопасной. Показывает результаты, сопоставимые с OpenAI-o1-1217 на задачах, требующих рассуждений.
- Список дообученных опенсорс моделей различных размеров (от 1.5B до 70B параметров) с использованием дистиляции знаний из DeepSeek-R1. Модели демонстрируют топовые метрики для соответствующих размеров.
DeepSeek-R1-Zero обучена только с применением RL. Модель DeepSeek-V3-Base использовалась как начальная точка. Обучение проводилось с помощью алгоритма Group Relative Policy Optimization (GRPO), который оптимизирует политику модели на основе групповых оценок вознаграждений. Использовалась rule-based reward model, которая оценивала правильность ответов (например, решение математических задач) и соблюдение формата вывода.
Интересно, что в процессе RL модель самостоятельно развивала сложные стратегии, такие как пересмотр и переоценка предыдущих шагов (рефлексия) и генерация длинных цепочек рассуждений. Это все без явного пробрасывания в процесс обучения этих знаний. В процессе RL сама пришла к выводу, что чтобы отвечать более правильно нужно больше рассуждать. На картинке есть график, как на протяжении RL обучения растет длина рассуждений в ответах.
DeepSeek-R1 обучена в несколько этапов:
1. Cold Start. Начальное дообучение модели DeepSeek-V3-Base с использованием небольшого набора данных, включающего примеры с длинными цепочками рассуждений .
2. Reasoning-Oriented Reinforcement Learning (RL, ориентированное на рассуждения). Модель обучалась также как и DeepSeek-R1-Zero с помощью алгоритма Group Relative Policy Optimization (GRPO) и rule-based reward model
3. Rejection Sampling and SFT. Модель дообучалась на отобранных данных (около 800,000 примеров), включая:
- Reasoning data: Задачи, требующие рассуждений (600,000 примеров). Использовали модель с предидущего этапа RL. Модель генерировала несколько ответов для каждого промпта, и только правильные и хорошо отформатированные ответы отбирались для дальнейшего обучения.
- Non-reasoning data: отобрали общие задачи из SFT датасета DeepSeek V3 такие как письмо, фактологический QA и перевод (200,000 примеров).
4. Ну и в конце RL для всех сценариев. Модель прошла дополнительный этап RL, направленный на улучшение её полезности и безопасности в различных сценариях.
GitHub
Paper
🔥9👍8👏3
Дистилляция знаний из модели DeepSeek-R1. Используя DeepSeek-R1 в качестве учителя, было сгенерировано около 800 тысяч примеров данных, включающих как рассуждения (reasoning), так и не связанные с рассуждениями задачи (например, написание текстов, фактологические вопросы и т.д.). На основе этих данных были дообучены (fine-tuned) несколько меньших моделей, таких как Qwen и Llama, с использованием только SFT, без RL. Это позволило передать способности к рассуждениям от более мощной модели к меньшим. Модели получились топовыми для своих размеров. Например, DeepSeek-R1-Distill-Qwen-7B превзошла GPT-4o и Claude-3.5-Sonnet на математических бенчмарках, а DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Llama-70B значительно превзошли OpenAI-o1-mini на большинстве тестов.
Интересно, что дообучение с RL дает хуже результаты чем такая дистициляция. В пейпере приводится пример с Qwen 32B. Дообучение на данных сгенерированных DeepSeek-R1 дает значительно лучшие метрики на бенчах. Получается что большая емкая модель DeepSeek-R1 поняла как нужно рассуждать и эти знания легко передать через примеры генераций и дообучении на них моделей меньшей емкости.
Интересно, что дообучение с RL дает хуже результаты чем такая дистициляция. В пейпере приводится пример с Qwen 32B. Дообучение на данных сгенерированных DeepSeek-R1 дает значительно лучшие метрики на бенчах. Получается что большая емкая модель DeepSeek-R1 поняла как нужно рассуждать и эти знания легко передать через примеры генераций и дообучении на них моделей меньшей емкости.
👍17🔥15❤4
Forwarded from Градиент обреченный (Sergei Averkiev)
This media is not supported in your browser
VIEW IN TELEGRAM
🔺Mercury Coder. Диффузионная LLM для кода
Стартап Inception из Пало-Альто решил поставить на диффузионные LLM и начал выкатывать свои модели. Звучит интересно, потому что каких-то внятных рабочих моделей на диффузии пока не было. Здесь же авторы предлагают доступ по API и установку on-prem, то есть некое готовое изолированное решение, чтобы ваш код не утёк.
Первой моделью стал Mercury Coder — кодовая модель, основным преимуществом которой является скорость генерации, в 5-10 раз быстрее ChatGPT или Claude, около 1000 токенов в секунду на H100.
Вспоминается анекдот про секретаршу, но не все так плохо, на бенчмарках результат между gpt-4o-mini и DeepSeek Coder, а в fill-in-the-middle (генерация в промежутках кода) ожидаемо лучше остальных.
Есть публичное демо. Не забудьте включить переключатель Diffusion Effect.
👉 https://chat.inceptionlabs.ai/
Стартап Inception из Пало-Альто решил поставить на диффузионные LLM и начал выкатывать свои модели. Звучит интересно, потому что каких-то внятных рабочих моделей на диффузии пока не было. Здесь же авторы предлагают доступ по API и установку on-prem, то есть некое готовое изолированное решение, чтобы ваш код не утёк.
Первой моделью стал Mercury Coder — кодовая модель, основным преимуществом которой является скорость генерации, в 5-10 раз быстрее ChatGPT или Claude, около 1000 токенов в секунду на H100.
Вспоминается анекдот про секретаршу, но не все так плохо, на бенчмарках результат между gpt-4o-mini и DeepSeek Coder, а в fill-in-the-middle (генерация в промежутках кода) ожидаемо лучше остальных.
Есть публичное демо. Не забудьте включить переключатель Diffusion Effect.
👉 https://chat.inceptionlabs.ai/
🔥22👍7💯1
Интересная статья. Возможно вы видели этот пост, но тема показалась мне важная.
❤1