NEW BOT Телеграм, страница - 556781175

NLP Core Team

3.34K subscribers

86 photos

3 videos

65 links

Канал команды NLP соre.
Здесь мы делимся нашими результами и мыслями в области NLP/PLP и не только. Мы авторы многих моделей для русского языка: ruBert, ruGPT2, ruGPT3, ruT5, ruRoberta, FRED-T5.

Download Telegram

About

Blog

Apps

Platform

3.34K subscribers

Forwarded from GigaChat

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

GigaSearch теперь в Telegram- и ВК-ботах

GigaChat отвечает за свои слова — на вопросы об исторических событиях и личностях сервис предоставляет информацию со ссылками на источники. Перейти по ним и прочитать подробнее можно прямо из ответа. Функция работает благодаря системе генерации на основе качественной поисковой выдачи GigaSearch.

🖥 Ищите ответы в Telegram, ВК или веб-версиях GigaChat!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍4⚡1👎1

3.69K viewsDmitry Zmitrovich, 16:48

⚡️ruMT-Bench: генеративный подход к оценке alignment для LLM на русском языке

Несколько месяцев назад мы реализовали генеративный подход к оценке чат версий моделей основанный на MT-Bench. Выкладываем также бенчмарк в открытый доступ. Несмотря на то, что MT-Bench адаптированный под русский язык уже выкладывали , мы делимся своей версией с тщательным переводом асессорами на русский язык, и демонстрируем возможности подхода для моделей доступных на русском языке.

ruMT-Bench содержит инструктивные multi-turn вопросы, разбитые по 8 различным областям знаний. GPT-4 оценивает ответы моделей по шкале от 1 до 10. Окончательная оценка определяется средним значением по всем репликам. Для некоторых сложных задач, требующих точного ответа (например, математика и код), в промт судьи (GPT-4) включается эталонный ответ, который помогает оценить ответы от модели. Замеры на корреляцию с оценками асессоров на lm-sys чат-бот арене показали [ссылка1,ссылка2], из которого следует вывод, что MT-Bench сильнее других бенчмарков на английском языке коррелирует с оценками людей.

GitHub | 🤗Huggingface

👍22🔥9👏5⚡2❤1🥰1

8K viewsAlexey Khoroshilov, 12:55

Вот про наше детище рассказывает популярный блогер. Приятно. Спасибо!😊

👏3👍2🔥1

4.27K viewsDmitry Zmitrovich, 10:33

Forwarded from Владилен: IT в эпоху AI

This media is not supported in your browser

VIEW IN TELEGRAM

Бесплатный Copilot

Ловите небольшой подгон. Потому что, кто не знал, есть такой инструмент как GigaCode

И он позволяет встроить бесплатный ассистент по коду. В целом - удобно

Надо более расширенный материал или гайд как лучше пользоваться им?

👩‍💻 - да давай
👩‍💻 - и на этом спасибо, сами разберемся

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥48👍12⚡4❤2👎2🌭2

5.26K viewsDmitry Zmitrovich, 10:33

This media is not supported in your browser

VIEW IN TELEGRAM

CodeChat в GigaCode 🚀🚀🚀

CodeChat поможет оптимизировать или отрефакторить имеющийся код, сгенерировать тесты или документацию, а также объяснить или написать код под конкретную задачу. Задавайте вопросы как по всему открытому файлу, так и по определенному фрагменту кода — просто выделите его в редакторе и сформулируйте запрос к CodeChat.
CodeChat умеет отвечать на вопросы не только про код.

Просто обновите плагин в вашей IDE. Если еще не пробовали GigaCode то направляем вас сюда https://gigacode.ru

Чуть позже расскажем про метрики нашей CodeChat модели.

🔥20🎉8🤮5👍3❤‍🔥2

4.94K viewsDmitry Zmitrovich, 08:05

Forwarded from Machinelearning

NLP Researchers, отметьте в календаре 26 октября🌟

Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер.
Мы создаем AI ассистента разработчика – GigaCode. Наши модели помогают писать 80к строк кода ежедневно! Решаем задачи по различным подходам в NLP и PLP, проводим ресёрч-эксперименты и обучаем новые SOTA LLM.
В работе используем: NLP, DL, ML, Python, Pytorch, Transformers, FSDP, Deepspeed.

Чем предстоит заниматься?
✅ реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами.
✅ проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов.
✅ обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей.

Если вы амбициозны и готовы к новым вызовам в PLP и/или NLP направлениях, регистрируйтесь на One Day Offer!

Будем делать важнейшие исследования вместе!💚

👍13🔥8🥰4❤3👎1

4.35K viewsDmitry Zmitrovich, 11:20

Ищем таланты. Приходите к нам на one day offer. Если вас драйвит заниматься исследованиями и делать крутые модели для разработчиков, то давайте к нам!)

🔥17👍12👨‍💻4👎1😁1

4.67K viewsDmitry Zmitrovich, 11:20

Forwarded from GigaDev — разработка GigaChat

Релиз Giga-Embeddings-instruct! (ссылка на hugging-face)

Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.

Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).

Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.

За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.

(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.

ai-sage/Giga-Embeddings-instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍25🔥9🎉8❤7

3K viewsDmitry Zmitrovich, 18:00

Команда, спасибо! Новая точка отсчета для нашего канала.

Команда, я благадарен вам за исследовательскую атмосферу, за стремление создавать что-то полезное здесь и сейчас. За 4 года мы проделали огромный путь. В начале мы и представить не могли, каких результатов мы сумеем достичь. Много моделей нами было обучено, некоторые мы опубликовали в опенсорс (ruBert, ruRoberta, ruT5, ruGpt2, ruGpt3, FRED-T5), ряд бенчмарков выпустили, активно участвовали в GigaChat, ну и конечно GigaCode — наше детище. Команда, я бесконечно благодарен вам за вашу поддержку и вашу смелость. Большое счастье ощущать себя частью такой команды!

Время идет и все меняется. Друзья, подписчики, к сожалению, команды с таким именем в Сбере больше не существует. Большинство из нас объединены стремлением контрибьютить в опенсорс. Этот канал нас объединяет. В нем, как и раньше, будем делиться нашими мыслями, обзорами на пейперы и результами. Под именем NLP_Core_Team следует воспринимать как группу NLP энтузиастов, которые время от времени, в свободное от основной работы, что-то публикуют и делают для опенсорс.

Правда, последнее время мы мало писали в канал. Уж извините, были заняты другим)) Мы исправимся. Сейчас у меня времени сильно больше и куча желания делиться мыслями. Испытываю вдохновение перед новыми вызовами.

Будем считать, что у нашего канала новая точка отсчета вступая в новый год.

Друзья, всех с наступающим Новым Годом! Новых SOTA результатов, новых моделей, вдохновения на новые свершения, исследовательской смелости ну и конечно же здоровья!))🎄

🎄

🎄

🔥

🔥

🔥

🎉

🎉

🎉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥42❤17😢7❤‍🔥6👏5👍4🍾2

3.31K viewsDmitry Zmitrovich, 10:53

🔥DeepSeek-V3

Немного запоздалый пост. Модель вышла как неделю. Привычно видеть выход новых открытых моделей, которые все выше и выше по метрикам. Но тут другое дело. Настал час, когда открытые модели уже по метрикам сильнее закрытых. DeepSeek V3 первая модель с топовыми метриками и с сильно дешевым инференсом от DeepSeek. Если GPT4o стоит $10 за 1M токенов на генерации то DeepSeek V3 стоит $1.1 а до 8 февраля $0.28.

Из ключевого о модели:
- Модель с архитектурой Mixture-of-Experts (MoE), содержащая 671 миллиард параметров, из которых активируется 37 миллиардов для каждого токена. 256 маршрутизируемых экспертов + 1 общий экспертов. Каждый токен активирует **8 маршрутезируемых экспертов.
- Использует Multi-head Latent Attention.
- Добавили Multi-Token Prediction что улучшает общую производительность на обучении и инференсе.
- Модель обучена на 14.8 триллионах токенов с FP8.
- Модель обучалась с добавлением Fill-in-Middle (FIM) задачи. Пишут что FIM не мешает задаче предикта следующего токена и улучшает метрики в кодовых тасках, где важен FIM.
- Сделали дистилляцию знаний из модели DeepSeek-R1 для улучшения способностей к рассуждению.

Модель по кодовым метрикам часто сильнее Claude 3.5 Sonnet, которая считается топовой для кода.
Потыкал DeepSeek на русском и я вам скажу она прям хорошо отвечает. Вообще не встретил каких-либо артифактов, которые свойственны моделям видевших русского мало. Сколько было русского у нее в претрейне неизвестно, но по метрикам MMMLU (Multiligual MMLU) она показала 79.4, что сильнее Llama 405B (73.8) и Qwen2.5 72B (74.8).

GitHub
Huggingface
Paper

🔥33👍12❤9

4.09K viewsDmitry Zmitrovich, 09:56

🔥SmallThinker-3B-Preview

Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и все на английском. Сначала дообучили на сете от QwQ 1.5 эпохи а после дообучали на обоих сетах 2 эпохи. По моим прикидкам совокупно дообучали до 20B токенов, что совсем не много. Получилась модель, которая очень даже не плохо рассуждает и отвечает особенно учитывая ее размер 3B.

Также можно использовать эту модель в качестве draft модели для модели QwQ 32b на инференсе в режиме speculative decoding, что позволяет ускорить инференс в 1.7 раза в сравнении с инференсом QwQ 32b.

На русском, как и QwQ, она отвечает, но часто вставляет токены из других языков. Вообще конечно интересно, что модель часто вставляя левые токены и при этом это ей не мешает рассуждать и приходить к верному решению.

Huggingface

🔥19👍8👏5❤2

3.38K viewsDmitry Zmitrovich, edited 10:04

Forwarded from AbstractDL

COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)

С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁

Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.

Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.

Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.

Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.

P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.

Статья, GitHub

👍28🔥19👏7😱1

2.34K viewsDmitry Zmitrovich, 08:11

🔥 DeepSeek R1

Новые открытые модели с ризонингом от DeepSeek, которые рядом по качествту с o1 и очень дешевым инференсом по api.

- DeepSeek-R1-Zero: Модель, обученная исключительно с помощью RL без предварительного SFT. Демонстрирует мощные способности к рассуждению, но сталкивается с проблемами, такими как низкая читаемость и смешение языков. Эта модель представляет интерес больше для исследователей. Оказывается без SFT и только с RL можно научить лучше решать задачи.
- DeepSeek-R1: Включает cold start, SFT и дополнительные этапы RL, что делает её более универсальной, читаемой и безопасной. Показывает результаты, сопоставимые с OpenAI-o1-1217 на задачах, требующих рассуждений.
- Список дообученных опенсорс моделей различных размеров (от 1.5B до 70B параметров) с использованием дистиляции знаний из DeepSeek-R1. Модели демонстрируют топовые метрики для соответствующих размеров.

DeepSeek-R1-Zero обучена только с применением RL. Модель DeepSeek-V3-Base использовалась как начальная точка. Обучение проводилось с помощью алгоритма Group Relative Policy Optimization (GRPO), который оптимизирует политику модели на основе групповых оценок вознаграждений. Использовалась rule-based reward model, которая оценивала правильность ответов (например, решение математических задач) и соблюдение формата вывода.

Интересно, что в процессе RL модель самостоятельно развивала сложные стратегии, такие как пересмотр и переоценка предыдущих шагов (рефлексия) и генерация длинных цепочек рассуждений. Это все без явного пробрасывания в процесс обучения этих знаний. В процессе RL сама пришла к выводу, что чтобы отвечать более правильно нужно больше рассуждать. На картинке есть график, как на протяжении RL обучения растет длина рассуждений в ответах.

DeepSeek-R1 обучена в несколько этапов:

1. Cold Start. Начальное дообучение модели DeepSeek-V3-Base с использованием небольшого набора данных, включающего примеры с длинными цепочками рассуждений .

2. Reasoning-Oriented Reinforcement Learning (RL, ориентированное на рассуждения). Модель обучалась также как и DeepSeek-R1-Zero с помощью алгоритма Group Relative Policy Optimization (GRPO) и rule-based reward model

3. Rejection Sampling and SFT. Модель дообучалась на отобранных данных (около 800,000 примеров), включая:
- Reasoning data: Задачи, требующие рассуждений (600,000 примеров). Использовали модель с предидущего этапа RL. Модель генерировала несколько ответов для каждого промпта, и только правильные и хорошо отформатированные ответы отбирались для дальнейшего обучения.
- Non-reasoning data: отобрали общие задачи из SFT датасета DeepSeek V3 такие как письмо, фактологический QA и перевод (200,000 примеров).

4. Ну и в конце RL для всех сценариев. Модель прошла дополнительный этап RL, направленный на улучшение её полезности и безопасности в различных сценариях.

GitHub
Paper

🔥9👍8👏3

3.09K viewsDmitry Zmitrovich, 12:44

Дистилляция знаний из модели DeepSeek-R1. Используя DeepSeek-R1 в качестве учителя, было сгенерировано около 800 тысяч примеров данных, включающих как рассуждения (reasoning), так и не связанные с рассуждениями задачи (например, написание текстов, фактологические вопросы и т.д.). На основе этих данных были дообучены (fine-tuned) несколько меньших моделей, таких как Qwen и Llama, с использованием только SFT, без RL. Это позволило передать способности к рассуждениям от более мощной модели к меньшим. Модели получились топовыми для своих размеров. Например, DeepSeek-R1-Distill-Qwen-7B превзошла GPT-4o и Claude-3.5-Sonnet на математических бенчмарках, а DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Llama-70B значительно превзошли OpenAI-o1-mini на большинстве тестов.

Интересно, что дообучение с RL дает хуже результаты чем такая дистициляция. В пейпере приводится пример с Qwen 32B. Дообучение на данных сгенерированных DeepSeek-R1 дает значительно лучшие метрики на бенчах. Получается что большая емкая модель DeepSeek-R1 поняла как нужно рассуждать и эти знания легко передать через примеры генераций и дообучении на них моделей меньшей емкости.

👍17🔥15❤4

4.21K viewsDmitry Zmitrovich, 12:45

Forwarded from Градиент обреченный (Sergei Averkiev)

This media is not supported in your browser

VIEW IN TELEGRAM

🔺Mercury Coder. Диффузионная LLM для кода

Стартап Inception из Пало-Альто решил поставить на диффузионные LLM и начал выкатывать свои модели. Звучит интересно, потому что каких-то внятных рабочих моделей на диффузии пока не было. Здесь же авторы предлагают доступ по API и установку on-prem, то есть некое готовое изолированное решение, чтобы ваш код не утёк.

Первой моделью стал Mercury Coder — кодовая модель, основным преимуществом которой является скорость генерации, в 5-10 раз быстрее ChatGPT или Claude, около 1000 токенов в секунду на H100.

Вспоминается анекдот про секретаршу, но не все так плохо, на бенчмарках результат между gpt-4o-mini и DeepSeek Coder, а в fill-in-the-middle (генерация в промежутках кода) ожидаемо лучше остальных.

Есть публичное демо. Не забудьте включить переключатель Diffusion Effect.

👉 https://chat.inceptionlabs.ai/

🔥22👍7💯1

3.74K viewsDmitry Zmitrovich, 06:46

Метрики прям сильные учитывая скорость генерации

🔥17👍5💯2👀2

4.03K viewsDmitry Zmitrovich, edited 06:49

Интересная статья. Возможно вы видели этот пост, но тема показалась мне важная.

❤1

2.59K viewsDmitry Zmitrovich, 10:07