GPT-like модель «впервые сделала научное открытие»: что, как и куда дальше?
https://habr.com/ru/companies/ods/articles/781138/
https://habr.com/ru/companies/ods/articles/781138/
Хабр
GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?
14-го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении...
👍2
Forwarded from epsilon correct
This media is not supported in your browser
VIEW IN TELEGRAM
Выпустили первую стабильную версию Tensorflow-GNN 1.0! 🎅
TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно🇷🇺 , приятно.
Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает.😛
TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно
Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Принес вам 13 книг по Machine Learning для прочтения в 2024 году
Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!
🧠 Фундамент
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
4. Probabilistic Machine Learning (Murphy, 2012-2023)
5. Linear Algebra and Learning from Data (Stang, 2019)
💻 Более практические
6. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
8. Designing Machine Learning Systems (Huyen, 2022)
9. Fundamentals of Data Engineering (Reis & Housley, 2022)
🤗 LLM-ки
10. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
11. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)
🎉 Генеративный AI
12. Generative Deep Learning, 2nd Edition (Foster, 2023)
13. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)
Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.
Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил.
@ai_newz
Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
4. Probabilistic Machine Learning (Murphy, 2012-2023)
5. Linear Algebra and Learning from Data (Stang, 2019)
6. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
8. Designing Machine Learning Systems (Huyen, 2022)
9. Fundamentals of Data Engineering (Reis & Housley, 2022)
🤗 LLM-ки
10. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
11. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)
12. Generative Deep Learning, 2nd Edition (Foster, 2023)
13. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)
Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.
Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😁1
Forwarded from Точка машинного зрения
Выложили в общий доступ 21 лекцию и семинар с Летней школы машинного обучения Сколтеха SMILES-2023.
✅ Обзор методов машинного обучения с учетом физико-математических моделей процессов. Евгений Бурнаев.
✅ Методы оптимизации для машинного обучения. Александр Гасников.
✅ Геометрические методы машинного обучения. Александр Бернштейн.
✅ Топологический анализ данных. Сергей Баранников.
✅ Введение в машинное обучение с учетом физико-математических моделей. Владимир Вановский.
✅ Устойчивое развитие и ESG-риски. Ирина Гайда.
✅ Топологический анализ данных. Илья Трофимов.
✅ Нейросетевые методы вычислительного оптимального транспорта. Александр Коротин. Часть 1 Часть 2
✅ Коммуникации в распределенной и федеративной оптимизации. Александр Безносиков.
✅ Краткое введение в квантовую химию и молекулярную симуляцию. Роман Щуцкий.
✅ Машинное обучение в квантовых системах. Штефан Сандуляну. Лекция Семинар
✅ Вычислительно эффективный оптимальный транспорт. Дарина Двинских.
✅ Генерация с использованием диффузионных моделей. Диффузионные модели в задачах text-to-3d. Кирилл Струминский.
✅ Методы оптимизации потоковой задачи на сетях. Александр Рогозин.
✅ Введение в диффузионные модели. Денис Ракитин.
✅ Диффузионные модели в задачах text-to-image. Никита Морозов.
✅ Семинары: Алгоритм нейронного оптимального транспорта для случая слабых костов. Нейронный оптимальный транспорт. Петр Мокров.
✅ Обзор методов машинного обучения с учетом физико-математических моделей процессов. Евгений Бурнаев.
✅ Методы оптимизации для машинного обучения. Александр Гасников.
✅ Геометрические методы машинного обучения. Александр Бернштейн.
✅ Топологический анализ данных. Сергей Баранников.
✅ Введение в машинное обучение с учетом физико-математических моделей. Владимир Вановский.
✅ Устойчивое развитие и ESG-риски. Ирина Гайда.
✅ Топологический анализ данных. Илья Трофимов.
✅ Нейросетевые методы вычислительного оптимального транспорта. Александр Коротин. Часть 1 Часть 2
✅ Коммуникации в распределенной и федеративной оптимизации. Александр Безносиков.
✅ Краткое введение в квантовую химию и молекулярную симуляцию. Роман Щуцкий.
✅ Машинное обучение в квантовых системах. Штефан Сандуляну. Лекция Семинар
✅ Вычислительно эффективный оптимальный транспорт. Дарина Двинских.
✅ Генерация с использованием диффузионных моделей. Диффузионные модели в задачах text-to-3d. Кирилл Струминский.
✅ Методы оптимизации потоковой задачи на сетях. Александр Рогозин.
✅ Введение в диффузионные модели. Денис Ракитин.
✅ Диффузионные модели в задачах text-to-image. Никита Морозов.
✅ Семинары: Алгоритм нейронного оптимального транспорта для случая слабых костов. Нейронный оптимальный транспорт. Петр Мокров.
❤5
Forwarded from Pavel Zloi
Всем привет! Под занавес года по просьбам трудящихся подготовил ещё и GGUF версию модели PavelGPT. Имеются варианты с квантизацями q2, q3, q4 и q8, по идее такой набор должен покрыть все возможные варианты (включая даже слабенькие железки).
Помимо этого обновил скрипт тренировки модели, добавил в него секции конвертации в GGUF и операции по квантизации.
PS. Сори, что пропал на неделю, причиной тому стал банальный грипп, который свалил меня аж на целую неделю, но со вчерашнего дня я уже более-менее вернулся в норму.
Помимо этого обновил скрипт тренировки модели, добавил в него секции конвертации в GGUF и операции по квантизации.
PS. Сори, что пропал на неделю, причиной тому стал банальный грипп, который свалил меня аж на целую неделю, но со вчерашнего дня я уже более-менее вернулся в норму.
huggingface.co
evilfreelancer/PavelGPT-7B-128K-v0.1-GGUF · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍4
Forwarded from grokaem себя (Milana)
#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
dynamic-epoch-4bb on Notion
100 questions about NLP | Notion
Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.
👍8🔥2😁1
Forwarded from Data Science News (Andrey)
А у нас тут на русском языке есть доклады по машинному обучению прямо на границе текущего развития науки. Названия к видео говорящие, ориентироваться просто. Могу со своей стороны выделить несколько выступлений со школы 2023 года:
Доклад про комбинацию ML и физических методов с примерами из реальных земных задач. Хороший обзорный рассказ и для общего развития полезно.
Если вы хотите знать почему в adam или adagrad так как есть, откуда это всё эти оптимизации взялись, можно ли сделать лучше, и как теоретически связан batch size и learning rate то вам сюда обязательно. Размяться перед просмотром лекции можно на этом.
Доклад про теорию диффузионных моделей. Смотрится относительно легко. Если вы думали что теория вероятности в ML вам не нужна, то самое время убедится в обратном.
Длина видео по 1,5 часа, однако, есть чем занять себя на скучных праздниках!
Доклад про комбинацию ML и физических методов с примерами из реальных земных задач. Хороший обзорный рассказ и для общего развития полезно.
Если вы хотите знать почему в adam или adagrad так как есть, откуда это всё эти оптимизации взялись, можно ли сделать лучше, и как теоретически связан batch size и learning rate то вам сюда обязательно. Размяться перед просмотром лекции можно на этом.
Доклад про теорию диффузионных моделей. Смотрится относительно легко. Если вы думали что теория вероятности в ML вам не нужна, то самое время убедится в обратном.
Длина видео по 1,5 часа, однако, есть чем занять себя на скучных праздниках!
❤1
Forwarded from gonzo-обзоры ML статей
[Singapore] TinyLlama: An Open-Source Small Language Model
Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
Статья:https://arxiv.org/abs/2401.02385
Код: https://github.com/jzhang38/TinyLlama
В полку SLM (Small Language Models) прибыло! TinyLlama — это моделька размера 1.1B, обученная на 3T токенов! Для сравнения намного большую 70B Шиншиллу (https://news.1rj.ru/str/gonzo_ML/1216) обучали на меньшем датасете в 1.4T токенов. По рецептам Шиншиллы оптимальное обучение для 1B модели было бы на 20B токенов (https://news.1rj.ru/str/gonzo_ML/1223), а тут 3T, почувствуйте разницу! Кажется, это в первый раз для настолько малой модели.
Из других SLM за последнее время были, например, Phi 1 и 1.5 с 1.3B (https://news.1rj.ru/str/gonzo_ML/1871), Phi 2 c 2.7B (https://news.1rj.ru/str/gonzo_ML/2173) или Gemini Nano с 1.8B и 3.2B (https://news.1rj.ru/str/gonzo_ML/2117).
Это интересное направление, потому что в целом все бегут за большими размерами, и ниша малых моделей недоисследована, а с учётом важности инференса они не менее важны. При этом давно уже есть наблюдения, что можно пообучать модель сильно за пределами compute optimal рецептов Шиншиллы, то это продолжает приносить плоды.
Архитектура классическая, декодер трансформера по рецепту Llama 2 с её же токенизатором. Данные собрали из SlimPajama (почищенный вариант RedPajama) и Starcoderdata, суммарно 950B токенов, так что обучали примерно 3 эпохи. Сэмплили датасеты в пропорции 7:3.
При этом задействовали разные продвинутые штуки и взяли RoPE энкодинги, RMSNorm pre-norm, SwiGLU, grouped-query attention.
Для скейлинга и ускорения задействовали Fully Sharded Data Parallel (FSDP) из Пайторча, свежий Flash Attention 2, заменили fused SwiGLU из xFormers на оригинальный и сэкономили памяти (это, кстати, для меня удивительно, мои первые ожидания, что fused реализация должна быть лучше) -- это позволило уместить модель в 40Gb памяти.
В итоге на A100-40G получили training throughput в 24,000 токенов в секунду. Для обучения на 300B токенов TinyLlama-1.1B требуется 3,456 A100 GPU-часов, в то время как у Pythia эта цифра равна 4,830 и у MPT’s вообще 7,920 часов.
Использовали для обучения Lit-GPT (https://github.com/Lightning-AI/lit-gpt, базируется на nanoGPT). AdamW, cosine learning rate, warmup, gradient clipping.
Обучалось 90 дней на 16 A100-40G GPU. По ценам AWS на p4d (https://aws.amazon.com/ec2/instance-types/p4/) это было бы примерно $140k между прочим.
Результат хорошо бьёт бейзлайны в лице OPT-1.3B, Pythia-1.0B и Pythia-1.4B. На MMLU правда хуже. С увеличением вычислительного бюджета перформанс продолжает расти, не понял только почему он более шумным становится.
Кажется, работа -- верх открытости. Весь код обучения, промежуточные чекпойнты, все детали обучения доступны.
Респект!
Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
Статья:https://arxiv.org/abs/2401.02385
Код: https://github.com/jzhang38/TinyLlama
В полку SLM (Small Language Models) прибыло! TinyLlama — это моделька размера 1.1B, обученная на 3T токенов! Для сравнения намного большую 70B Шиншиллу (https://news.1rj.ru/str/gonzo_ML/1216) обучали на меньшем датасете в 1.4T токенов. По рецептам Шиншиллы оптимальное обучение для 1B модели было бы на 20B токенов (https://news.1rj.ru/str/gonzo_ML/1223), а тут 3T, почувствуйте разницу! Кажется, это в первый раз для настолько малой модели.
Из других SLM за последнее время были, например, Phi 1 и 1.5 с 1.3B (https://news.1rj.ru/str/gonzo_ML/1871), Phi 2 c 2.7B (https://news.1rj.ru/str/gonzo_ML/2173) или Gemini Nano с 1.8B и 3.2B (https://news.1rj.ru/str/gonzo_ML/2117).
Это интересное направление, потому что в целом все бегут за большими размерами, и ниша малых моделей недоисследована, а с учётом важности инференса они не менее важны. При этом давно уже есть наблюдения, что можно пообучать модель сильно за пределами compute optimal рецептов Шиншиллы, то это продолжает приносить плоды.
Архитектура классическая, декодер трансформера по рецепту Llama 2 с её же токенизатором. Данные собрали из SlimPajama (почищенный вариант RedPajama) и Starcoderdata, суммарно 950B токенов, так что обучали примерно 3 эпохи. Сэмплили датасеты в пропорции 7:3.
При этом задействовали разные продвинутые штуки и взяли RoPE энкодинги, RMSNorm pre-norm, SwiGLU, grouped-query attention.
Для скейлинга и ускорения задействовали Fully Sharded Data Parallel (FSDP) из Пайторча, свежий Flash Attention 2, заменили fused SwiGLU из xFormers на оригинальный и сэкономили памяти (это, кстати, для меня удивительно, мои первые ожидания, что fused реализация должна быть лучше) -- это позволило уместить модель в 40Gb памяти.
В итоге на A100-40G получили training throughput в 24,000 токенов в секунду. Для обучения на 300B токенов TinyLlama-1.1B требуется 3,456 A100 GPU-часов, в то время как у Pythia эта цифра равна 4,830 и у MPT’s вообще 7,920 часов.
Использовали для обучения Lit-GPT (https://github.com/Lightning-AI/lit-gpt, базируется на nanoGPT). AdamW, cosine learning rate, warmup, gradient clipping.
Обучалось 90 дней на 16 A100-40G GPU. По ценам AWS на p4d (https://aws.amazon.com/ec2/instance-types/p4/) это было бы примерно $140k между прочим.
Результат хорошо бьёт бейзлайны в лице OPT-1.3B, Pythia-1.0B и Pythia-1.4B. На MMLU правда хуже. С увеличением вычислительного бюджета перформанс продолжает расти, не понял только почему он более шумным становится.
Кажется, работа -- верх открытости. Весь код обучения, промежуточные чекпойнты, все детали обучения доступны.
Респект!
arXiv.org
TinyLlama: An Open-Source Small Language Model
We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages...
Ferret: Refer and Ground Anything Anywhere at Any Granularity
https://github.com/apple/ml-ferret
https://github.com/apple/ml-ferret
GitHub
GitHub - apple/ml-ferret
Contribute to apple/ml-ferret development by creating an account on GitHub.
Forwarded from что-то на DL-ском
На днях от huggingface вышла новая библиотека для дедубликации, фильтрации и подготовки данных в большом объеме.
Удобство от их библиотек лично у меня в сердечке🤌 . Пока есть много примеров использования в репе, но не нашла еще документации на их сайте. Думаю, что скоро появится.
А пока уже можно начинать пользоваться🥹
Удобство от их библиотек лично у меня в сердечке
А пока уже можно начинать пользоваться
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - huggingface/datatrove: Freeing data processing from noscripting madness by providing a set of platform-agnostic customizable…
Freeing data processing from noscripting madness by providing a set of platform-agnostic customizable pipeline processing blocks. - huggingface/datatrove
👍2
Forwarded from Mikhail Tikhomirov
Всем привет! Некоторое время назад мы в лаборатории НИВЦ МГУ провели интересную серию экспериментов по адаптации LLM на русский язык, которые в итоге вылились в статью Impact of Tokenization on LLaMa Russian Adaptation (https://arxiv.org/abs/2312.02598), о чем я и хочу рассказать.
Большинство выходящих LLM являются либо англо(-китайско) язычными, либо мультиязычными, но все равно с упором на английский язык. При этом явно заметна разница в том, насколько хорошо работают такие модели на своем “родном” языке и на русском. Так как тема LLM очень интересная и наверняка с нами надолго, мы решили исследовать, можно ли адаптировать LLM на русский язык, а также какая все же токенизация подходит лучше для русского языка: BPE или Unigram.
Существует работа китайцев https://arxiv.org/pdf/2304.08177.pdf (а также еще некоторые похожие), в которых они расширяли исходную токенизацию новыми токенами, таким образом получив размер словаря в ~50к, а затем дообучали модель с помощью LoRa на 20 и 120 GB данных (два разных варианта). В результате полученные модели протестировали на C-Eval и получили качество чуть лучше исходных моделей.
Мы решили пойти по схожему пути, но с некоторыми отличиями. Во-первых, мы исследовали гипотезу, что Unigram токенизация лучше подходит для русского языка, чем BPE, как с точки зрения морфологии, так и с точки зрения перформанса моделей. Для этого мы обучили полностью новую токенизацию в 32тыс. токенов на русскоязычном корпусе (и BPE и Unigram). Соответственно слои эмбеддингов и lm head нужно было переинициализировать заново, что было сделано усреднением. Во-вторых, мы решили тюнить только слой эмбедингов и lm head, не трогая весь остальной трансформер, так как боялись испортить модель, ну и для экономии ресурсов.
Эксперименты проводили на LLaMa-7B, обучали на несколько переработанном rulm (https://huggingface.co/datasets/IlyaGusev/rulm) ~43GB на кластере с 16 V100. Тестировали все это дело на russian super glue, используя код из https://github.com/IlyaGusev/rulm.
И вот результаты, которые у нас получились (графики и таблички из статьи в пост не влезут, возможно, если будет интерес, распишу подробнее где-нибудь еще):
1. Качество на rsg у ruadapt моделей слегка выше, чем у исходной llama,
2. Unigram показал стабильно лучше результат, чем BPE,
3. Оценка людьми тоже показала небольшой перевес в сторону ruadapt модели.
Но один из главных результатов в другом. Имея схожее качество, как и у исходной модели, ruadapt модель на русскоязычных текстах показывает более высокую скорость работы из-за более подходящей токенизации. Генерация одного и того же по длине (в символах, не токенах!) текста становится быстрее до 60% и скорость обучения также растет, например в случае rsg до 30%.
Из некоторых моментов не включенных в статью, так как были обнаружены позднее:
1. Сходимость с lr=2e-5 показала себя лучше, чем с lr=3e-4.
2. Попытка обучить Mistral оказалась неудачной, после 0.8 эпохи обучение разошлось. Над причинами можно гадать, но есть как гипотеза в том, что на используемых версиях библиотек есть такая проблема, так и гипотеза о том, что это результат обучения в fp16 модели, которая исходно была в bf16 (а bf16 лучше работает с большими числами, если не ошибаюсь) с заморозкой почти всех весов привел такому результату.
3. ruadapt модели плохо реагировали на repetition penalty, как будто были слишком “неуверенные”.
4. Если тестировать на mmlu (а также mera) в zero-shot и few-shot, метрики на большинстве датасетов слегка ниже, чем у исходной модели, хотя и не слишком существенно.
В итоге мы обучили еще одну модель, уже на основе llama-2 7b, учили две эпохи вместо одной, а также с lr=2e-5. Данную модель (и ее инстракт версию) и выложили в репозиторий на hf. У нее, по моим экспериментам, проблема с repetition_penalty уже пропала, да и в целом она получше первых версий моделей, о которых мы писали в статье.
ruadapt llama-2: https://huggingface.co/rccmsu/ruadapt_llama2_7b_v0.1
ruadapt llama-2 saiga: https://huggingface.co/rccmsu/ruadapt_saiga2_7b_v0.1
Большинство выходящих LLM являются либо англо(-китайско) язычными, либо мультиязычными, но все равно с упором на английский язык. При этом явно заметна разница в том, насколько хорошо работают такие модели на своем “родном” языке и на русском. Так как тема LLM очень интересная и наверняка с нами надолго, мы решили исследовать, можно ли адаптировать LLM на русский язык, а также какая все же токенизация подходит лучше для русского языка: BPE или Unigram.
Существует работа китайцев https://arxiv.org/pdf/2304.08177.pdf (а также еще некоторые похожие), в которых они расширяли исходную токенизацию новыми токенами, таким образом получив размер словаря в ~50к, а затем дообучали модель с помощью LoRa на 20 и 120 GB данных (два разных варианта). В результате полученные модели протестировали на C-Eval и получили качество чуть лучше исходных моделей.
Мы решили пойти по схожему пути, но с некоторыми отличиями. Во-первых, мы исследовали гипотезу, что Unigram токенизация лучше подходит для русского языка, чем BPE, как с точки зрения морфологии, так и с точки зрения перформанса моделей. Для этого мы обучили полностью новую токенизацию в 32тыс. токенов на русскоязычном корпусе (и BPE и Unigram). Соответственно слои эмбеддингов и lm head нужно было переинициализировать заново, что было сделано усреднением. Во-вторых, мы решили тюнить только слой эмбедингов и lm head, не трогая весь остальной трансформер, так как боялись испортить модель, ну и для экономии ресурсов.
Эксперименты проводили на LLaMa-7B, обучали на несколько переработанном rulm (https://huggingface.co/datasets/IlyaGusev/rulm) ~43GB на кластере с 16 V100. Тестировали все это дело на russian super glue, используя код из https://github.com/IlyaGusev/rulm.
И вот результаты, которые у нас получились (графики и таблички из статьи в пост не влезут, возможно, если будет интерес, распишу подробнее где-нибудь еще):
1. Качество на rsg у ruadapt моделей слегка выше, чем у исходной llama,
2. Unigram показал стабильно лучше результат, чем BPE,
3. Оценка людьми тоже показала небольшой перевес в сторону ruadapt модели.
Но один из главных результатов в другом. Имея схожее качество, как и у исходной модели, ruadapt модель на русскоязычных текстах показывает более высокую скорость работы из-за более подходящей токенизации. Генерация одного и того же по длине (в символах, не токенах!) текста становится быстрее до 60% и скорость обучения также растет, например в случае rsg до 30%.
Из некоторых моментов не включенных в статью, так как были обнаружены позднее:
1. Сходимость с lr=2e-5 показала себя лучше, чем с lr=3e-4.
2. Попытка обучить Mistral оказалась неудачной, после 0.8 эпохи обучение разошлось. Над причинами можно гадать, но есть как гипотеза в том, что на используемых версиях библиотек есть такая проблема, так и гипотеза о том, что это результат обучения в fp16 модели, которая исходно была в bf16 (а bf16 лучше работает с большими числами, если не ошибаюсь) с заморозкой почти всех весов привел такому результату.
3. ruadapt модели плохо реагировали на repetition penalty, как будто были слишком “неуверенные”.
4. Если тестировать на mmlu (а также mera) в zero-shot и few-shot, метрики на большинстве датасетов слегка ниже, чем у исходной модели, хотя и не слишком существенно.
В итоге мы обучили еще одну модель, уже на основе llama-2 7b, учили две эпохи вместо одной, а также с lr=2e-5. Данную модель (и ее инстракт версию) и выложили в репозиторий на hf. У нее, по моим экспериментам, проблема с repetition_penalty уже пропала, да и в целом она получше первых версий моделей, о которых мы писали в статье.
ruadapt llama-2: https://huggingface.co/rccmsu/ruadapt_llama2_7b_v0.1
ruadapt llama-2 saiga: https://huggingface.co/rccmsu/ruadapt_saiga2_7b_v0.1
👍3❤1
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp
Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.
🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.
🟣 CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.
🟣 Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/
🟣 Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/
🟣 Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.
🌸Курсы попроще
Требуется только английский и Python
🟣 HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.
🟣 Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.
🟣 Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.
#nlp #про_nlp
Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.
🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.
🌸Курсы попроще
Требуется только английский и Python
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Вихрь — семейство переведенных русскоязычных LLM
https://habr.com/ru/articles/787894/
https://habr.com/ru/articles/787894/
Хабр
Вихрь — семейство переведенных русскоязычных LLM
В современном мире LLM, также известных как "чудо техники", сложилась забавная ситуация: формально LLAMA, Mistral и другие open source проекты не поддерживают ничего, кроме английского языка, но это...
👍4
Forwarded from Сиолошная
Обычно на День рождения подарки получают, но я люблю дарить, отдавать и делиться. Прошлой весной, пока сидел без работы, я получал предложения сделать курс по NLP/LLM. После анализа конкурентов, включая Stanford'ские курсы, я пришёл к выводу, что мне эта идея не кажется перспективной — я не видел, что можно ещё предложить и какую ценность добавить, да и кто будет целевой аудиторией. Но осенью ко мне пришли ребята из Deep Learning School при Физтехе и предложили заделать «пару лекций». Мало кто знает, но пост про GPT-4 с Пашей Комаровским в соавторстве начинался примерно с таких же слов: «не хочешь сделать на коленке мини-заметку?».
В итоге пара лекций превратилась... в мини-курс «Полная история семейства GPT» из 4 частей. На данный момент полностью готово 2 части, и сегодня я публикую первую. Она состоит из трёх видео, которые, как я считаю, будет полезно посмотреть всем — от начинающих свой путь в ML до суперсеньорных NLP'шников, которые вероятно пропустили или не знали предпосылок разработки GPT-1. Правда, курс предполагает, что вы представляете, что такое трансформер — какое счастье, что я и такую лекцию сделал!
В курс включено много тем и деталей, о которых либо говорят редко, либо они не указаны в статьях, либо всё и сразу. Какие-то топики, конечно, пересекаются, но думаю, что здоровая доля novelty тут есть.
1) youtu.be/l-l82uNwyu8 — лекция про сжатие как способ выработки понимания (что? а вот увидите!)
2) youtu.be/jKd_CdRh7U4 — лекция про обучение без учителя на текстовых данных, или почему мы обучаем языковые модели так, как обучаем
3) youtu.be/i3lkIJ82rNI — finally, лекция с разбором GPT-1
(но вообще я предлагаю просто подписаться на канал на YouTube, чтобы иметь удобную навигацию там и ничего не пропустить)
Вторая часть выйдет на следующей неделе, будет состоять из ПЯТИ видео и опишет прогресс от GPT-1 до GPT-3. Семинары и домашние задания к лекциям появятся весной и будут выложены на платформе курса — поэтому переходите на сайт школы, чтобы ничего не пропустить. Занятия в школе — БЕСПЛАТНЫЕ (и организованы на платформе Stepik)!
В итоге пара лекций превратилась... в мини-курс «Полная история семейства GPT» из 4 частей. На данный момент полностью готово 2 части, и сегодня я публикую первую. Она состоит из трёх видео, которые, как я считаю, будет полезно посмотреть всем — от начинающих свой путь в ML до суперсеньорных NLP'шников, которые вероятно пропустили или не знали предпосылок разработки GPT-1. Правда, курс предполагает, что вы представляете, что такое трансформер — какое счастье, что я и такую лекцию сделал!
В курс включено много тем и деталей, о которых либо говорят редко, либо они не указаны в статьях, либо всё и сразу. Какие-то топики, конечно, пересекаются, но думаю, что здоровая доля novelty тут есть.
1) youtu.be/l-l82uNwyu8 — лекция про сжатие как способ выработки понимания (что? а вот увидите!)
2) youtu.be/jKd_CdRh7U4 — лекция про обучение без учителя на текстовых данных, или почему мы обучаем языковые модели так, как обучаем
3) youtu.be/i3lkIJ82rNI — finally, лекция с разбором GPT-1
(но вообще я предлагаю просто подписаться на канал на YouTube, чтобы иметь удобную навигацию там и ничего не пропустить)
Вторая часть выйдет на следующей неделе, будет состоять из ПЯТИ видео и опишет прогресс от GPT-1 до GPT-3. Семинары и домашние задания к лекциям появятся весной и будут выложены на платформе курса — поэтому переходите на сайт школы, чтобы ничего не пропустить. Занятия в школе — БЕСПЛАТНЫЕ (и организованы на платформе Stepik)!
YouTube
Полная история GPT, блок 1.1: Предсказание — это сжатие | Котенков Игорь
ВАЖНО!
Этот мини-курс является частью другого курса, поэтому предполагает наличие некоторой базы. Пререквизиты:
— базовое знание ML (как учится нейронная сеть, что такое лосс, как валидировать модель)
— понимание концепции эмбеддинга (на уровне работы с текстовыми…
Этот мини-курс является частью другого курса, поэтому предполагает наличие некоторой базы. Пререквизиты:
— базовое знание ML (как учится нейронная сеть, что такое лосс, как валидировать модель)
— понимание концепции эмбеддинга (на уровне работы с текстовыми…
Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей
https://habr.com/ru/companies/airi/articles/787340/
https://habr.com/ru/companies/airi/articles/787340/
Хабр
Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей
Всем привет! Меня зовут Артём Важенцев , я аспирант в Сколтехе и младший научный сотрудник AIRI. Наша группа занимается исследованием и разработкой новых методов оценивания неопределенности для...
👍3
Forwarded from LLM под капотом
PatronusAI и HuggingFace опубликовали LLM Enterprise Scenarios Leaderboard
Это закрытый бенчмарк, который оценивает LLM модели на реальных задачах из корпоративного сектора:
- Finance Bench
- Legal Confidentiality
- Writing
- Customer Support
- Toxic Prompts
- Enterprise PII
Это выгодно отличает его от академических бенчмарков для LLM вроде MMLU, ARC и HellaSwag. Последние интересны, но достаточно бесполезны на практике. Так всегда бывает.
Почему бенчмарк закрытый? Чтобы команды не подгоняли свои модели под тесты.
Моделей у них пока не очень много, т.к. это достаточно непростая задача разрабатывать и вести такой бенчмарк. Они будут добавлять туда модели постепенно.
Почитать: Hugging Face Blog post | Leaderboard
А пока ждем - можно еще глянуть на Trustbit LLM Enterprise Leaderboard за январь. Мы ведем этот бенчмарк с июля прошлого года, и моделей там побольше 😉
Ваш, @llm_under_hood 🤗
PS: Спасибо Айгизу за наводку.
Это закрытый бенчмарк, который оценивает LLM модели на реальных задачах из корпоративного сектора:
- Finance Bench
- Legal Confidentiality
- Writing
- Customer Support
- Toxic Prompts
- Enterprise PII
Это выгодно отличает его от академических бенчмарков для LLM вроде MMLU, ARC и HellaSwag. Последние интересны, но достаточно бесполезны на практике. Так всегда бывает.
Почему бенчмарк закрытый? Чтобы команды не подгоняли свои модели под тесты.
Моделей у них пока не очень много, т.к. это достаточно непростая задача разрабатывать и вести такой бенчмарк. Они будут добавлять туда модели постепенно.
Почитать: Hugging Face Blog post | Leaderboard
А пока ждем - можно еще глянуть на Trustbit LLM Enterprise Leaderboard за январь. Мы ведем этот бенчмарк с июля прошлого года, и моделей там побольше 😉
Ваш, @llm_under_hood 🤗
PS: Спасибо Айгизу за наводку.
Илья Гусев запилил презентацию про все вот эти языковые модели
http://tinyurl.com/gusevlocal
http://tinyurl.com/gusevlocal
Google Docs
Локальные языковые модели
Локальные языковые модели без ограничений на вашем ноутбуке Илья Гусев, февраль 2024 http://tinyurl.com/gusevlocal
Forwarded from Сиолошная
Опубликовал на YouTube 4 новых лекции из мини-курса «Полная история семейства GPT». Обещал пять, но контента вышло больше, монтировать и делать правки, как следствие, дольше — поэтому последнее видео второго модуля выйдет к среде.
Привалило аж 2.5 часа контента:
1) https://youtu.be/WEsez1sYo2E — лекция про GPT-2
2) https://youtu.be/mFYFQELA-HU — описание происходящего в индустрии после (не)релиза GPT-2
3) https://youtu.be/UFE6rOC4640 — технические новшества и детали тренировки GPT-3
4) https://youtu.be/u1fnaML5bm8 — результаты GPT-3 на разных задачах, от классических до крайне необычных (по тем временам)
Смотреть по порядку, включая первый модуль, удобно тут — в специальном плейлисте.
Если вдруг пропустили анонс и первый модуль — бегом смотреть, получил очень хорошие отзывы на те лекции!
Привалило аж 2.5 часа контента:
1) https://youtu.be/WEsez1sYo2E — лекция про GPT-2
2) https://youtu.be/mFYFQELA-HU — описание происходящего в индустрии после (не)релиза GPT-2
3) https://youtu.be/UFE6rOC4640 — технические новшества и детали тренировки GPT-3
4) https://youtu.be/u1fnaML5bm8 — результаты GPT-3 на разных задачах, от классических до крайне необычных (по тем временам)
Смотреть по порядку, включая первый модуль, удобно тут — в специальном плейлисте.
Если вдруг пропустили анонс и первый модуль — бегом смотреть, получил очень хорошие отзывы на те лекции!
👍1
Forwarded from Старший Авгур
Классная новая лекция Саши Раша про историю языковых моделей.
Включает в себя:
- Очень понятный вывод перплексии и её влияния на остальные метрики
- Сравнение с древними n-граммными моделями
- Вывод механизма внимания как аппроксимацию key-value памяти
- Понятные переходы “n-граммная модель -> word2vec -> трансформеры”
- Объяснение важности иерархии памяти в GPU при матричном умножении
- Scaling law Шиншиллы
- RASP, довольно забавный язык программирования, основанный на механизме внимания. Язык этот используется для того, чтобы показать, как трансформеры могут делать те или иные операции.
Что я узнал нового? Только часть про RASP, которую я как-то пропустил года 2 назад.
Но всё равно лекция довольно интересная.
Видео: https://www.youtube.com/watch?v=KCXDr-UOb9A
Презентация: https://link.excalidraw.com/p/readonly/aBWlNjEckdUlrszwwo6V
Включает в себя:
- Очень понятный вывод перплексии и её влияния на остальные метрики
- Сравнение с древними n-граммными моделями
- Вывод механизма внимания как аппроксимацию key-value памяти
- Понятные переходы “n-граммная модель -> word2vec -> трансформеры”
- Объяснение важности иерархии памяти в GPU при матричном умножении
- Scaling law Шиншиллы
- RASP, довольно забавный язык программирования, основанный на механизме внимания. Язык этот используется для того, чтобы показать, как трансформеры могут делать те или иные операции.
Что я узнал нового? Только часть про RASP, которую я как-то пропустил года 2 назад.
Но всё равно лекция довольно интересная.
Видео: https://www.youtube.com/watch?v=KCXDr-UOb9A
Презентация: https://link.excalidraw.com/p/readonly/aBWlNjEckdUlrszwwo6V
YouTube
Large Language Models in Five Formulas
Tutorial on building intuition about LLMs.
Slides: https://link.excalidraw.com/p/readonly/aBWlNjEckdUlrszwwo6V or https://github.com/srush/LLM-Talk/blob/main/Tutorial.pdf
00:00 - Intro
02:15 - 1: Generation (Perplexity)
15:40 - 2: Memory (Attention)
28:00…
Slides: https://link.excalidraw.com/p/readonly/aBWlNjEckdUlrszwwo6V or https://github.com/srush/LLM-Talk/blob/main/Tutorial.pdf
00:00 - Intro
02:15 - 1: Generation (Perplexity)
15:40 - 2: Memory (Attention)
28:00…