NEW BOT Телеграм, страница - 553473098

Machine Learning Research

963 subscribers

61 photos

7 videos

2 files

1.05K links

Download Telegram

About

Blog

Apps

Platform

Machine Learning Research

963 subscribers

Machine Learning Research

Forwarded from black_samorez

Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.

Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.

Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.

Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True), и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.

Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.

🔥5

824 viewsНиколай, 15:51

Machine Learning Research

Еще один плейлист про все эти LLM
https://www.youtube.com/playlist?list=PLK0DyPM1d8B2V3Yz65koC8KVc3TQ7iP2g

815 viewsНиколай, 18:37

Machine Learning Research

Forwarded from КПД

QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks
[Статья][Код]

Только-только мы с коллегами выкатили AQLM , как конкуренты нанесли ответный удар)

LLM-ки становятся все круче, новые модели, датасеты с инструкциями выходят почти на ежедневной основе. Однако, самые сильные из опенсорсных моделей (Llama-2-70b с дохреналлионом файтьюнов, Микстраль и загадочное нечто под названием miqu) не влезают в колаб или условную RTX 3090/4090. Квантизация в 4 бита (до недавних пор бывшая Парето-оптимальная) недостаточна, чтобы позволить уместиться такой здоровенной модели на щупленькую видеокарту, а предыдущие методы квантизации в 2-3 бита ломают заметно модель и проще взять меньшую модель в большей точности. Но свежие работы открывают дорогу к инференсу оверсайзд моделей на хорошей геймерской GPU.

Метод

Quip# (решетка, потому что E8 решетка квантования) стоит на трех 🐳 :
1️⃣ Incoherence processing
2️⃣ E8 решеточная векторная квантизация
3️⃣ Дообучение неквантованных параметров

1) Как известно, веса больших языковых моделей обладают выбросами (outliers), плохо поддающимися квантованию, и в ряде прошлых работ было предложено их тем или иным образом изолировать. Здесь же, следуя своей прошлой работе QuIP авторы домножают веса на случайное ортогональное преобразование, благодаря которому величины и чувствительности параметров растекаются равномерно по матрице (incoherence processing). Отличие от прошлой работы в том, что вместо произведения кронекеровских матриц для параметризации ортогонального преобразования используется случайное Адамарово преобразование, более эффективное вычислительно и не уступающее по качеству.

2) Поэлементная квантизация не совсем оптимальна в том смысле, что оптимизирует ошибку в пределах некоторого гиперкуба (если рассматривать группы весов). А в действительности группы весов распределены в некотором шаре. А объем шара того же диаметра, что и сторона куба, в большой размерности много меньше описанного вокруг него куба. И при том же количестве кластеров (квантованных значений), можно добиться значительно меньшей ошибки. Для используемой в работе квантизации группами по 8 весов оптимальная решетка - E8, как было показано сравнительно недавно.

3) Чтобы уменьшить ошибку квантизации, можно потюнить модель воспроизводить выходы слоев исходной модели. Как и в AQLM авторы сначала дообучают неквантованные модели на уровне отдельных блоков трансформера. А на второй стадии обучают уже все неквантованные параметры на минизацию разницы между сжатой моделью и исходной fp16.

Для больших битностей (3-4 бита) используется Residual Vector Quantization, когда ошибка квантизации еще раз квантуется и конечный вес представляется в виде суммы квантованного веса и квантованной ошибки.

936 viewsНиколай, 09:15

Machine Learning Research

Forwarded from Записки MLEшника (Egor)

Там у Джереми Ховарда на Ютуб выходят лекции (1, 2) по программированию на CUDA (который fast.ai сделал и не последний человек в kaggle)

Сам я пока не смотрел, но другие его курсы и лекции очень нравятся. Должно быть годнотой

836 viewsНиколай, 09:51

Machine Learning Research

Forwarded from Сиолошная

Двухчасовая лекция от ex-Tesla ex-OpenAI инженера-менеджера Andrey Karpathy про токенизацию и все её тонкости 🙂

https://www.youtube.com/watch?v=zduSFxRajkE

Репозиторий с пошаговым и хорошо прокомментированным кодом как сопроводительный материал: https://github.com/karpathy/minbpe

Если вы хотели увидеть, как GPT "читает" ваш текст, какие единицы в нём выделяет — вам сюда.

Please open Telegram to view this post

VIEW IN TELEGRAM

Let's build the GPT Tokenizer

The Tokenizer is a necessary and pervasive component of Large Language Models (LLMs), where it translates between strings and tokens (text chunks). Tokenizers are a completely separate stage of the LLM pipeline: they have their own training sets, training…

692 viewsНиколай, 17:58

Machine Learning Research

Forwarded from AI[ex]Time (Александр Голубев)

Опять статья по эффективному тюнингу, уже формируется целая коллекция из LoRA, VeRA, и на этот раз DoRA: Weight-Decomposed Low-Rank Adaptation. Совсем недавняя статья, где получились уже интересные результаты: по экспам неплохо обгоняет лору при том же числе обучаемых параметров. На самом деле лора и дора очень похожи, за исключением одной маленькой технической детали.
Вспомним как работает LoRA — У нас есть замороженная матрица весов W, мы учим две новые A и B и получаем out = (W + AB) * in. После тюнинга можно все это смерджить, чтобы получить одну матрицу W’ = W + AB.

В DoRA предложили немного изменить процедуру обучения и отдельно выделить вектор, задающий величину (любой вектор можно представить как vector = m * unit_vector, то есть величину, умноженную на единичный вектор, отвечающий за направление). То же самое можно сделать и для матрицы: W = ||W||_c * W/||W||_c = m * V, где m — вектор с нормами матрицы по столбцам. В таком случае мы будем использовать ровно так же LoRA для V, но дополнительно обучаем и вектор m. Размер вектора m можно сказать о малое от остальных параметров, поэтому практически не увеличивает требования по памяти. Возможно картинка на первый взгляд не очень понятная, но если немного посмотреть, то достаточно хорошо видно, в чем заключается суть.

Выглядит кажется логично: после обычной лоры у нас может в ту или другую сторону поехать норма матрицы, а здесь мы дополнительно контролируем этот фактор. Прикрепил также сравнения для LLaMA-7/13B.

👍1

820 viewsНиколай, 16:12

Machine Learning Research

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT
https://habr.com/ru/articles/794566/

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле...

722 viewsНиколай, 06:45

Machine Learning Research

Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса

Помните, я рассказывал про эмбеддинги предложений SONAR?
Те самые, для которых есть текстовый энкодер (предложение=>вектор) и декодер (вектор=>предложение) для 200 языков, и ещё несколько десятков энкодеров речи, переводящих устные предложения в то же семантическое пространство, что и письменные.
На основе которых работает моделька BLASER 2.0, неплохо коррелирующая с человеческими оценками (XSTS) качества перевода текста и речи.
На основе которых мои коллеги недавно запилили самый мультиязычный классификатор токсичности, MuTox.
Ну и, конечно, на основе которых мои коллеги собрали датасет SeamlessAlign: собранные по интернетам и заматченные по смыслу пары предложений речь-текст (100К часов) и речь-речь (9К часов) на разных языках. Этот датасет использовался для обучения моделей Seamless, примерно лучших из того, что сегодня существует для перевода речи.

Так вот. SONAR сейчас понимает текст на 200 языках (те же самые, что NLLB), но энкодеры речи пока есть только для 57 языков.
Зачем эти энкодеры вообще нужны? В голову приходит несколько примеров применений:
1) Классификация и перевод устных предложений напрямую, минуя этап автоматической транскрипции. Для классификации можно использовать модели поверх эмбеддингов предложений (типа того же MuTox), а для перевода - имеющийся текстовый декодер.
2) Автоматический матчинг устных предложений с их переводами или транскрипцией - то, как мы собирали SeamlessAlign и несколько подобных датасетов.

Ну и поскольку польза от этого вроде как есть, то сообщество просит дать им рецепт обучения энкодера речи для ещё одного языка. А раз просит - я попробовал сделать. С минимальными данными (используя только CommonVoice) и вычислительными ресурсами (два дня обучения на Colab Pro). На примере грузинского языка, потому что для него ещё нет энкодера речи, но есть, на каких данных оценить его качество и с чем сравнить.
Рецепт - в этом блокноте. Качество мне не очень нравится, так что я его ещё буду дорабатывать. Но фидбек хочется получить уже сейчас, так что если вам есть, что сказать по поводу этого блокнота - не стесняйтесь писать в комменты)

758 viewsНиколай, 06:46

Machine Learning Research

Сравнение различных схем квантования для LLM
https://habr.com/ru/articles/797443/

Сравнение различных схем квантования для LLM

Что такое квантование? Квантование — это метод сжатия модели, который преобразует веса и активации в LLM путем уменьшения битности вычислений, т. е. из типа данных, который может содержать больше...

688 viewsНиколай, 05:43

Machine Learning Research

Forwarded from Ирина Кикина

🔥СТАРТ КУРСА🔥
MLOps и production в DS исследованиях 3.0

18 марта 2024г при поддержке Open Data Science стартует запуск, открытого онлайн курса MLOps и production в DS исследованиях 3.0!

Мы учли ваши пожелания и предложения, внесли доработки, дополнили контент, разнообразили домашние задания, а так же, пригласили новых спикеров!

В рамках курса вы:
🤓Познакомитесь с концепцией воспроизводимых исследований;
🤓Научитесь автоматизировать процесс проведения стандартизированных исследований;
🤓Узнаете о методах организации командной работы над ML-проектами;
🤓Получите практические рекомендации по работе с кодом в DS исследованиях;
🤓Изучите полезные инструменты для автоматизации и обеспечения воспроизводимости исследований.

Совсем скоро откроется регистрация, а пока, предлагаем ознакомиться с программой курса!

Следить за новостями, а так же, задавать любые вопросы, связанные с курсом, можно в нашем telegram чате для участников курса!

MLOps курс 3.0

3 поток курса MLOps и production в DS исследованиях 3.0
Данная группа предназначена для обсуждения вопросов и новостей по MLOps курсу 3.0
По вопросам размещения рекламы, новостей, вакансий-обращаться к @Irinka_Bekker

918 viewsНиколай, 09:25

Machine Learning Research

Forwarded from Dealer.AI

"Квантизируй меня полностью" или мануал по квантизации от Yandex.

Тут ML-разработчик Яндекса выкатил подробнейшую статью на Хабре о том, что такое квантизация и как она работает.
Отличный гайд, который достоин закрепа во вкладках.

В статье представленны различные методы для уменьшения точности после зпт, как на инференсе, так и для обучения. Затронуты вопросы выбросов в тензорах, а также послойный/весовой/блочный и др. подходы. Во времена LLM не обошли и вопросы связанные с особенностями их квантизации.

Еще отмечу, везде, где возможно указаны ссылки на референс статьи и код методов. Тем самым, обзор позволяет потрогать указанные методы руками и выбрать подходящий именно под свои задачи. В общем, читаем, пробуем, учимся.

Quantization Deep Dive, или Введение в современную квантизацию

Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая...

792 viewsНиколай, 12:09

Machine Learning Research

Forwarded from Сиолошная

Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat

Можно загрузить видео или целую папку с файлами для анализа

Го тестировать

706 viewsНиколай, 14:20

Machine Learning Research

Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса

Про проект Panlex.org, собравший перевод слов для тысяч языков, я узнал почти два года назад.
Но воспользоваться этими данными для машинного обучения никак не доходили руки, просто потому, что лень было скачивать и расковыривать дамп их базы данных.
Сейчас я таки расковырял его, разрезал на отдельные языки, и выложил на HF: https://huggingface.co/datasets/cointegrated/panlex-meanings.
Если вам внезапно понадобились словари для кучи малоресурсных языков в единообразном формате, может быть полезно.

Помимо этого ресурса, порекомендую ещё, пользуясь случаем, недавний датасет Gatitos с похожей мотивацией; там 4000 слов/фраз/коротких предложений, переведенные на 173 языка.

👍1

753 viewsНиколай, 08:09

Machine Learning Research

Forwarded from Pavel Zloi

Всем привет! Рад поделиться с вами свежей публикацией "Как подготовить Linux к запуску и обучению нейросетей? (+ Docker)", которая только что появилась в моём блоге на Дзен!

В этой публикации мы окунёмся в увлекательный мир настройки серверов под управлением операционных систем на базе ядра Linux для работы с нейросетями, в частности разберём как установить драйверы Nvidia, как установить CUDA, как настроить Docker и как использовать карточки в Docker-контейнерах.

Желаю приятного прочтения!

#zen #linux #nvidia #docker #ai #python

Дзен | Статьи

Как подготовить Linux к запуску и обучению нейросетей? (+ Docker)

Статья автора «Pavel Zloi» в Дзене ✍: Приветствую всех ценителей мира нейросетей!

590 viewsНиколай, 16:38

Machine Learning Research

Лучшие бесплатные курсы и ресурсы для изучения машинного обучения

https://habr.com/ru/articles/804251/

685 viewsНиколай, 17:19

Machine Learning Research

Как устроено пространство, в котором думают языковые модели?

https://habr.com/ru/companies/airi/articles/804515/

Как устроено пространство, в котором думают языковые модели?

Изображение сгенерировано Dalle-3 Хабр, привет! Меня зовут Антон Разжигаев, я аспирант Сколтеха и участник научной группы Fusion Brain в институте AIRI. С момента выхода первой статьи «Attention is...

723 viewsНиколай, 16:49

Machine Learning Research

Lightning Thunder
Make PyTorch models up to 40% faster!
https://github.com/Lightning-AI/lightning-thunder

GitHub - Lightning-AI/lightning-thunder: PyTorch compiler that accelerates training and inference. Get built-in optimizations for…

PyTorch compiler that accelerates training and inference. Get built-in optimizations for performance, memory, parallelism, and easily write your own. - Lightning-AI/lightning-thunder

616 viewsНиколай, 16:24

Machine Learning Research

В Стэнфорде новый запуск курса по трансформерам в зуме
https://twitter.com/stevenyfeng/status/1775972154938659184

835 viewsНиколай, 05:57

Machine Learning Research

OmniFusion 1.1: мультимодальность теперь и на русском
https://habr.com/ru/companies/airi/articles/806277/

OmniFusion 1.1: мультимодальность теперь и на русском

В прошлом году на конференции AIJ 2023 мы представили первую версию OmniFusion — мультимодальной языковой модели (LLM), способной поддерживать визуальный диалог и отвечать на вопросы по картинкам....

897 viewsНиколай, 11:29

Machine Learning Research

Forwarded from Dealer.AI

https://llama.meta.com/llama3/

721 viewsНиколай, 16:13

Machine Learning Research

Forwarded from Старший Авгур

https://huggingface.co/IlyaGusev/saiga_llama3_8b

Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.

727 viewsНиколай, 19:52