NEW BOT Телеграм, страница

Выложили в общий доступ 21 лекцию и семинар с Летней школы машинного обучения Сколтеха SMILES-2023.

✅ Обзор методов машинного обучения с учетом физико-математических моделей процессов. Евгений Бурнаев.

✅ Методы оптимизации для машинного обучения. Александр Гасников.

✅ Геометрические методы машинного обучения. Александр Бернштейн.

✅ Топологический анализ данных. Сергей Баранников.

✅ Введение в машинное обучение с учетом физико-математических моделей. Владимир Вановский.

✅ Устойчивое развитие и ESG-риски. Ирина Гайда.

✅ Топологический анализ данных. Илья Трофимов.

✅ Нейросетевые методы вычислительного оптимального транспорта. Александр Коротин. Часть 1 Часть 2

✅ Коммуникации в распределенной и федеративной оптимизации. Александр Безносиков.

✅ Краткое введение в квантовую химию и молекулярную симуляцию. Роман Щуцкий.

✅ Машинное обучение в квантовых системах. Штефан Сандуляну. Лекция Семинар

✅ Вычислительно эффективный оптимальный транспорт. Дарина Двинских.

✅ Генерация с использованием диффузионных моделей. Диффузионные модели в задачах text-to-3d. Кирилл Струминский.

✅ Методы оптимизации потоковой задачи на сетях. Александр Рогозин.

✅ Введение в диффузионные модели. Денис Ракитин.

✅ Диффузионные модели в задачах text-to-image. Никита Морозов.

✅ Семинары: Алгоритм нейронного оптимального транспорта для случая слабых костов. Нейронный оптимальный транспорт. Петр Мокров.

❤5

681 viewsНиколай, 13:26

Machine Learning Research

Forwarded from Pavel Zloi

Всем привет! Под занавес года по просьбам трудящихся подготовил ещё и GGUF версию модели PavelGPT. Имеются варианты с квантизацями q2, q3, q4 и q8, по идее такой набор должен покрыть все возможные варианты (включая даже слабенькие железки).

Помимо этого обновил скрипт тренировки модели, добавил в него секции конвертации в GGUF и операции по квантизации.

PS. Сори, что пропал на неделю, причиной тому стал банальный грипп, который свалил меня аж на целую неделю, но со вчерашнего дня я уже более-менее вернулся в норму.

huggingface.co

evilfreelancer/PavelGPT-7B-128K-v0.1-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍4

680 viewsНиколай, 05:52

Machine Learning Research

Forwarded from grokaem себя (Milana)

#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.

*Notion будет пополняться*

Notion русская версия

В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна

Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.

dynamic-epoch-4bb on Notion

100 questions about NLP | Notion

Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.

👍8🔥2😁1

751 viewsНиколай, 11:15

Machine Learning Research

Forwarded from Data Science News (Andrey)

А у нас тут на русском языке есть доклады по машинному обучению прямо на границе текущего развития науки. Названия к видео говорящие, ориентироваться просто. Могу со своей стороны выделить несколько выступлений со школы 2023 года:

Доклад про комбинацию ML и физических методов с примерами из реальных земных задач. Хороший обзорный рассказ и для общего развития полезно.

Если вы хотите знать почему в adam или adagrad так как есть, откуда это всё эти оптимизации взялись, можно ли сделать лучше, и как теоретически связан batch size и learning rate то вам сюда обязательно. Размяться перед просмотром лекции можно на этом.

Доклад про теорию диффузионных моделей. Смотрится относительно легко. Если вы думали что теория вероятности в ML вам не нужна, то самое время убедится в обратном.

Длина видео по 1,5 часа, однако, есть чем занять себя на скучных праздниках!

❤1

1.02K viewsНиколай, 12:46

Machine Learning Research

Forwarded from gonzo-обзоры ML статей

[Singapore] TinyLlama: An Open-Source Small Language Model
Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
Статья:https://arxiv.org/abs/2401.02385
Код: https://github.com/jzhang38/TinyLlama

В полку SLM (Small Language Models) прибыло! TinyLlama — это моделька размера 1.1B, обученная на 3T токенов! Для сравнения намного большую 70B Шиншиллу (https://news.1rj.ru/str/gonzo_ML/1216) обучали на меньшем датасете в 1.4T токенов. По рецептам Шиншиллы оптимальное обучение для 1B модели было бы на 20B токенов (https://news.1rj.ru/str/gonzo_ML/1223), а тут 3T, почувствуйте разницу! Кажется, это в первый раз для настолько малой модели.

Из других SLM за последнее время были, например, Phi 1 и 1.5 с 1.3B (https://news.1rj.ru/str/gonzo_ML/1871), Phi 2 c 2.7B (https://news.1rj.ru/str/gonzo_ML/2173) или Gemini Nano с 1.8B и 3.2B (https://news.1rj.ru/str/gonzo_ML/2117).

Это интересное направление, потому что в целом все бегут за большими размерами, и ниша малых моделей недоисследована, а с учётом важности инференса они не менее важны. При этом давно уже есть наблюдения, что можно пообучать модель сильно за пределами compute optimal рецептов Шиншиллы, то это продолжает приносить плоды.

Архитектура классическая, декодер трансформера по рецепту Llama 2 с её же токенизатором. Данные собрали из SlimPajama (почищенный вариант RedPajama) и Starcoderdata, суммарно 950B токенов, так что обучали примерно 3 эпохи. Сэмплили датасеты в пропорции 7:3.

При этом задействовали разные продвинутые штуки и взяли RoPE энкодинги, RMSNorm pre-norm, SwiGLU, grouped-query attention.

Для скейлинга и ускорения задействовали Fully Sharded Data Parallel (FSDP) из Пайторча, свежий Flash Attention 2, заменили fused SwiGLU из xFormers на оригинальный и сэкономили памяти (это, кстати, для меня удивительно, мои первые ожидания, что fused реализация должна быть лучше) -- это позволило уместить модель в 40Gb памяти.

В итоге на A100-40G получили training throughput в 24,000 токенов в секунду. Для обучения на 300B токенов TinyLlama-1.1B требуется 3,456 A100 GPU-часов, в то время как у Pythia эта цифра равна 4,830 и у MPT’s вообще 7,920 часов.

Использовали для обучения Lit-GPT (https://github.com/Lightning-AI/lit-gpt, базируется на nanoGPT). AdamW, cosine learning rate, warmup, gradient clipping.

Обучалось 90 дней на 16 A100-40G GPU. По ценам AWS на p4d (https://aws.amazon.com/ec2/instance-types/p4/) это было бы примерно $140k между прочим.

Результат хорошо бьёт бейзлайны в лице OPT-1.3B, Pythia-1.0B и Pythia-1.4B. На MMLU правда хуже. С увеличением вычислительного бюджета перформанс продолжает расти, не понял только почему он более шумным становится.

Кажется, работа -- верх открытости. Весь код обучения, промежуточные чекпойнты, все детали обучения доступны.

Респект!

arXiv.org

TinyLlama: An Open-Source Small Language Model

We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages...

1.09K viewsНиколай, 06:16

Machine Learning Research

Ferret: Refer and Ground Anything Anywhere at Any Granularity
https://github.com/apple/ml-ferret

GitHub

GitHub - apple/ml-ferret

Contribute to apple/ml-ferret development by creating an account on GitHub.

627 viewsНиколай, 16:02

Machine Learning Research

Forwarded from что-то на DL-ском

На днях от huggingface вышла новая библиотека для дедубликации, фильтрации и подготовки данных в большом объеме.

Удобство от их библиотек лично у меня в сердечке 🤌. Пока есть много примеров использования в репе, но не нашла еще документации на их сайте. Думаю, что скоро появится.

А пока уже можно начинать пользоваться🥹

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - huggingface/datatrove: Freeing data processing from noscripting madness by providing a set of platform-agnostic customizable…

Freeing data processing from noscripting madness by providing a set of platform-agnostic customizable pipeline processing blocks. - huggingface/datatrove

👍2

548 viewsНиколай, 11:43

Machine Learning Research

Forwarded from Mikhail Tikhomirov

Всем привет! Некоторое время назад мы в лаборатории НИВЦ МГУ провели интересную серию экспериментов по адаптации LLM на русский язык, которые в итоге вылились в статью Impact of Tokenization on LLaMa Russian Adaptation (https://arxiv.org/abs/2312.02598), о чем я и хочу рассказать.

Большинство выходящих LLM являются либо англо(-китайско) язычными, либо мультиязычными, но все равно с упором на английский язык. При этом явно заметна разница в том, насколько хорошо работают такие модели на своем “родном” языке и на русском. Так как тема LLM очень интересная и наверняка с нами надолго, мы решили исследовать, можно ли адаптировать LLM на русский язык, а также какая все же токенизация подходит лучше для русского языка: BPE или Unigram.

Существует работа китайцев https://arxiv.org/pdf/2304.08177.pdf (а также еще некоторые похожие), в которых они расширяли исходную токенизацию новыми токенами, таким образом получив размер словаря в ~50к, а затем дообучали модель с помощью LoRa на 20 и 120 GB данных (два разных варианта). В результате полученные модели протестировали на C-Eval и получили качество чуть лучше исходных моделей.

Мы решили пойти по схожему пути, но с некоторыми отличиями. Во-первых, мы исследовали гипотезу, что Unigram токенизация лучше подходит для русского языка, чем BPE, как с точки зрения морфологии, так и с точки зрения перформанса моделей. Для этого мы обучили полностью новую токенизацию в 32тыс. токенов на русскоязычном корпусе (и BPE и Unigram). Соответственно слои эмбеддингов и lm head нужно было переинициализировать заново, что было сделано усреднением. Во-вторых, мы решили тюнить только слой эмбедингов и lm head, не трогая весь остальной трансформер, так как боялись испортить модель, ну и для экономии ресурсов.

Эксперименты проводили на LLaMa-7B, обучали на несколько переработанном rulm (https://huggingface.co/datasets/IlyaGusev/rulm) ~43GB на кластере с 16 V100. Тестировали все это дело на russian super glue, используя код из https://github.com/IlyaGusev/rulm.

И вот результаты, которые у нас получились (графики и таблички из статьи в пост не влезут, возможно, если будет интерес, распишу подробнее где-нибудь еще):

1. Качество на rsg у ruadapt моделей слегка выше, чем у исходной llama,
2. Unigram показал стабильно лучше результат, чем BPE,
3. Оценка людьми тоже показала небольшой перевес в сторону ruadapt модели.

Но один из главных результатов в другом. Имея схожее качество, как и у исходной модели, ruadapt модель на русскоязычных текстах показывает более высокую скорость работы из-за более подходящей токенизации. Генерация одного и того же по длине (в символах, не токенах!) текста становится быстрее до 60% и скорость обучения также растет, например в случае rsg до 30%.

Из некоторых моментов не включенных в статью, так как были обнаружены позднее:
1. Сходимость с lr=2e-5 показала себя лучше, чем с lr=3e-4.
2. Попытка обучить Mistral оказалась неудачной, после 0.8 эпохи обучение разошлось. Над причинами можно гадать, но есть как гипотеза в том, что на используемых версиях библиотек есть такая проблема, так и гипотеза о том, что это результат обучения в fp16 модели, которая исходно была в bf16 (а bf16 лучше работает с большими числами, если не ошибаюсь) с заморозкой почти всех весов привел такому результату.
3. ruadapt модели плохо реагировали на repetition penalty, как будто были слишком “неуверенные”.
4. Если тестировать на mmlu (а также mera) в zero-shot и few-shot, метрики на большинстве датасетов слегка ниже, чем у исходной модели, хотя и не слишком существенно.

В итоге мы обучили еще одну модель, уже на основе llama-2 7b, учили две эпохи вместо одной, а также с lr=2e-5. Данную модель (и ее инстракт версию) и выложили в репозиторий на hf. У нее, по моим экспериментам, проблема с repetition_penalty уже пропала, да и в целом она получше первых версий моделей, о которых мы писали в статье.

ruadapt llama-2: https://huggingface.co/rccmsu/ruadapt_llama2_7b_v0.1
ruadapt llama-2 saiga: https://huggingface.co/rccmsu/ruadapt_saiga2_7b_v0.1

👍3❤1

582 viewsНиколай, 07:10

Machine Learning Research

Forwarded from Kali Novskaya (Tatiana Shavrina)

🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp

Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.

🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.

🟣CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.

🟣Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/

🟣Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/

🟣Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.

🌸Курсы попроще
Требуется только английский и Python

🟣HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.

🟣Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.

🟣Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2

600 viewsНиколай, 17:45

Machine Learning Research

Вихрь — семейство переведенных русскоязычных LLM
https://habr.com/ru/articles/787894/

Хабр

Вихрь — семейство переведенных русскоязычных LLM

В современном мире LLM, также известных как "чудо техники", сложилась забавная ситуация: формально LLAMA, Mistral и другие open source проекты не поддерживают ничего, кроме английского языка, но это...

👍4

661 viewsНиколай, 10:58

Machine Learning Research

Forwarded from Сиолошная

Обычно на День рождения подарки получают, но я люблю дарить, отдавать и делиться. Прошлой весной, пока сидел без работы, я получал предложения сделать курс по NLP/LLM. После анализа конкурентов, включая Stanford'ские курсы, я пришёл к выводу, что мне эта идея не кажется перспективной — я не видел, что можно ещё предложить и какую ценность добавить, да и кто будет целевой аудиторией. Но осенью ко мне пришли ребята из Deep Learning School при Физтехе и предложили заделать «пару лекций». Мало кто знает, но пост про GPT-4 с Пашей Комаровским в соавторстве начинался примерно с таких же слов: «не хочешь сделать на коленке мини-заметку?».

В итоге пара лекций превратилась... в мини-курс «Полная история семейства GPT» из 4 частей. На данный момент полностью готово 2 части, и сегодня я публикую первую. Она состоит из трёх видео, которые, как я считаю, будет полезно посмотреть всем — от начинающих свой путь в ML до суперсеньорных NLP'шников, которые вероятно пропустили или не знали предпосылок разработки GPT-1. Правда, курс предполагает, что вы представляете, что такое трансформер — какое счастье, что я и такую лекцию сделал!

В курс включено много тем и деталей, о которых либо говорят редко, либо они не указаны в статьях, либо всё и сразу. Какие-то топики, конечно, пересекаются, но думаю, что здоровая доля novelty тут есть.

1) youtu.be/l-l82uNwyu8 — лекция про сжатие как способ выработки понимания (что? а вот увидите!)
2) youtu.be/jKd_CdRh7U4 — лекция про обучение без учителя на текстовых данных, или почему мы обучаем языковые модели так, как обучаем
3) youtu.be/i3lkIJ82rNI — finally, лекция с разбором GPT-1

(но вообще я предлагаю просто подписаться на канал на YouTube, чтобы иметь удобную навигацию там и ничего не пропустить)

Вторая часть выйдет на следующей неделе, будет состоять из ПЯТИ видео и опишет прогресс от GPT-1 до GPT-3. Семинары и домашние задания к лекциям появятся весной и будут выложены на платформе курса — поэтому переходите на сайт школы, чтобы ничего не пропустить. Занятия в школе — БЕСПЛАТНЫЕ (и организованы на платформе Stepik)!

YouTube

Полная история GPT, блок 1.1: Предсказание — это сжатие | Котенков Игорь

ВАЖНО!
Этот мини-курс является частью другого курса, поэтому предполагает наличие некоторой базы. Пререквизиты:
— базовое знание ML (как учится нейронная сеть, что такое лосс, как валидировать модель)
— понимание концепции эмбеддинга (на уровне работы с текстовыми…

795 viewsНиколай, 07:53

Machine Learning Research

Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей

https://habr.com/ru/companies/airi/articles/787340/

Хабр

Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей

Всем привет! Меня зовут Артём Важенцев , я аспирант в Сколтехе и младший научный сотрудник AIRI. Наша группа занимается исследованием и разработкой новых методов оценивания неопределенности для...

👍3

849 viewsНиколай, 16:48

Machine Learning Research

Forwarded from LLM под капотом

PatronusAI и HuggingFace опубликовали LLM Enterprise Scenarios Leaderboard

Это закрытый бенчмарк, который оценивает LLM модели на реальных задачах из корпоративного сектора:

- Finance Bench
- Legal Confidentiality
- Writing
- Customer Support
- Toxic Prompts
- Enterprise PII

Это выгодно отличает его от академических бенчмарков для LLM вроде MMLU, ARC и HellaSwag. Последние интересны, но достаточно бесполезны на практике. Так всегда бывает.

Почему бенчмарк закрытый? Чтобы команды не подгоняли свои модели под тесты.

Моделей у них пока не очень много, т.к. это достаточно непростая задача разрабатывать и вести такой бенчмарк. Они будут добавлять туда модели постепенно.

Почитать: Hugging Face Blog post | Leaderboard

А пока ждем - можно еще глянуть на Trustbit LLM Enterprise Leaderboard за январь. Мы ведем этот бенчмарк с июля прошлого года, и моделей там побольше 😉

Ваш, @llm_under_hood 🤗

PS: Спасибо Айгизу за наводку.

595 viewsНиколай, 11:57

Machine Learning Research

Илья Гусев запилил презентацию про все вот эти языковые модели
http://tinyurl.com/gusevlocal

Google Docs

Локальные языковые модели

Локальные языковые модели без ограничений на вашем ноутбуке Илья Гусев, февраль 2024 http://tinyurl.com/gusevlocal

813 viewsНиколай, 17:50

Machine Learning Research

Forwarded from Сиолошная

Опубликовал на YouTube 4 новых лекции из мини-курса «Полная история семейства GPT». Обещал пять, но контента вышло больше, монтировать и делать правки, как следствие, дольше — поэтому последнее видео второго модуля выйдет к среде.

Привалило аж 2.5 часа контента:
1) https://youtu.be/WEsez1sYo2E — лекция про GPT-2
2) https://youtu.be/mFYFQELA-HU — описание происходящего в индустрии после (не)релиза GPT-2
3) https://youtu.be/UFE6rOC4640 — технические новшества и детали тренировки GPT-3
4) https://youtu.be/u1fnaML5bm8 — результаты GPT-3 на разных задачах, от классических до крайне необычных (по тем временам)

Смотреть по порядку, включая первый модуль, удобно тут — в специальном плейлисте.

Если вдруг пропустили анонс и первый модуль — бегом смотреть, получил очень хорошие отзывы на те лекции!

👍1

634 viewsНиколай, 16:35

Machine Learning Research

Forwarded from Старший Авгур

Классная новая лекция Саши Раша про историю языковых моделей.

Включает в себя:
- Очень понятный вывод перплексии и её влияния на остальные метрики
- Сравнение с древними n-граммными моделями
- Вывод механизма внимания как аппроксимацию key-value памяти
- Понятные переходы “n-граммная модель -> word2vec -> трансформеры”
- Объяснение важности иерархии памяти в GPU при матричном умножении
- Scaling law Шиншиллы
- RASP, довольно забавный язык программирования, основанный на механизме внимания. Язык этот используется для того, чтобы показать, как трансформеры могут делать те или иные операции.

Что я узнал нового? Только часть про RASP, которую я как-то пропустил года 2 назад.
Но всё равно лекция довольно интересная.

Видео: https://www.youtube.com/watch?v=KCXDr-UOb9A
Презентация: https://link.excalidraw.com/p/readonly/aBWlNjEckdUlrszwwo6V

YouTube

Large Language Models in Five Formulas

Tutorial on building intuition about LLMs.
Slides: https://link.excalidraw.com/p/readonly/aBWlNjEckdUlrszwwo6V or https://github.com/srush/LLM-Talk/blob/main/Tutorial.pdf

00:00 - Intro
02:15 - 1: Generation (Perplexity)
15:40 - 2: Memory (Attention)
28:00…

695 viewsНиколай, 12:59

Machine Learning Research

Forwarded from black_samorez

Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.

Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.

Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.

Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True), и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.

Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.

🔥5

824 viewsНиколай, 15:51

Machine Learning Research

Еще один плейлист про все эти LLM
https://www.youtube.com/playlist?list=PLK0DyPM1d8B2V3Yz65koC8KVc3TQ7iP2g

815 viewsНиколай, 18:37

Machine Learning Research

Forwarded from КПД

QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks
[Статья][Код]

Только-только мы с коллегами выкатили AQLM , как конкуренты нанесли ответный удар)

LLM-ки становятся все круче, новые модели, датасеты с инструкциями выходят почти на ежедневной основе. Однако, самые сильные из опенсорсных моделей (Llama-2-70b с дохреналлионом файтьюнов, Микстраль и загадочное нечто под названием miqu) не влезают в колаб или условную RTX 3090/4090. Квантизация в 4 бита (до недавних пор бывшая Парето-оптимальная) недостаточна, чтобы позволить уместиться такой здоровенной модели на щупленькую видеокарту, а предыдущие методы квантизации в 2-3 бита ломают заметно модель и проще взять меньшую модель в большей точности. Но свежие работы открывают дорогу к инференсу оверсайзд моделей на хорошей геймерской GPU.

Метод

Quip# (решетка, потому что E8 решетка квантования) стоит на трех 🐳 :
1️⃣ Incoherence processing
2️⃣ E8 решеточная векторная квантизация
3️⃣ Дообучение неквантованных параметров

1) Как известно, веса больших языковых моделей обладают выбросами (outliers), плохо поддающимися квантованию, и в ряде прошлых работ было предложено их тем или иным образом изолировать. Здесь же, следуя своей прошлой работе QuIP авторы домножают веса на случайное ортогональное преобразование, благодаря которому величины и чувствительности параметров растекаются равномерно по матрице (incoherence processing). Отличие от прошлой работы в том, что вместо произведения кронекеровских матриц для параметризации ортогонального преобразования используется случайное Адамарово преобразование, более эффективное вычислительно и не уступающее по качеству.

2) Поэлементная квантизация не совсем оптимальна в том смысле, что оптимизирует ошибку в пределах некоторого гиперкуба (если рассматривать группы весов). А в действительности группы весов распределены в некотором шаре. А объем шара того же диаметра, что и сторона куба, в большой размерности много меньше описанного вокруг него куба. И при том же количестве кластеров (квантованных значений), можно добиться значительно меньшей ошибки. Для используемой в работе квантизации группами по 8 весов оптимальная решетка - E8, как было показано сравнительно недавно.

3) Чтобы уменьшить ошибку квантизации, можно потюнить модель воспроизводить выходы слоев исходной модели. Как и в AQLM авторы сначала дообучают неквантованные модели на уровне отдельных блоков трансформера. А на второй стадии обучают уже все неквантованные параметры на минизацию разницы между сжатой моделью и исходной fp16.

Для больших битностей (3-4 бита) используется Residual Vector Quantization, когда ошибка квантизации еще раз квантуется и конечный вес представляется в виде суммы квантованного веса и квантованной ошибки.

936 viewsНиколай, 09:15

Machine Learning Research

Forwarded from Записки MLEшника (Egor)

Там у Джереми Ховарда на Ютуб выходят лекции (1, 2) по программированию на CUDA (который fast.ai сделал и не последний человек в kaggle)

Сам я пока не смотрел, но другие его курсы и лекции очень нравятся. Должно быть годнотой

836 viewsНиколай, 09:51

Machine Learning Research

Forwarded from Сиолошная

Двухчасовая лекция от ex-Tesla ex-OpenAI инженера-менеджера Andrey Karpathy про токенизацию и все её тонкости 🙂

https://www.youtube.com/watch?v=zduSFxRajkE

Репозиторий с пошаговым и хорошо прокомментированным кодом как сопроводительный материал: https://github.com/karpathy/minbpe

Если вы хотели увидеть, как GPT "читает" ваш текст, какие единицы в нём выделяет — вам сюда.

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Let's build the GPT Tokenizer

The Tokenizer is a necessary and pervasive component of Large Language Models (LLMs), where it translates between strings and tokens (text chunks). Tokenizers are a completely separate stage of the LLM pipeline: they have their own training sets, training…

692 viewsНиколай, 17:58

About

Blog

Apps

Platform