Forwarded from AbstractDL
🔥FlashAttention-2: опять в два раза быстрее
Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!
Статья, GitHub
Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!
Статья, GitHub
🔥60⚡6✍4❤2🤩2❤🔥1👍1
AbstractDL
🔥FlashAttention-2: опять в два раза быстрее Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!…
Оригинальный флеш получал основное ускорение за счет простой идеи: мы используем поблочное умножение для Q,V + хранили экспоненты для вычисленных значений, что позволяло экономить на IO.
При этом еще вычисляют все слои внутри одного cuda kernel что экономит на IO + используют быстрый L2 L3 cache.
Второй flash attention
+ вместо хранения сум экспонент они хранят только logsumexp;
красивое....
⚡36❤10👍2👨💻2🔥1
Forwarded from что-то на DL-ском
история о том, как чуваки, применив наработки deepmind в сфере transfer learning, обучили CodeBert взяв за основу RoBERTa используя только адаптеры
Описанное выше на самом деле находится в этой статье, где авторы делятся опытом transfer learning с помощью адаптеров для создания мультимодальной модели (язык - код). А подводка следующая☕️ :
Все наверняка уже слышали по 10050 раз, особенно в последнее время о том, что такое адаптер (2019). Но если вспомнить базовый механизм за счет которого все работает, то можно описать следующим образом: берем доп слой, вставляем где-то между слоями исходной модели, и обучаем, замораживая исходные веса. Это позволяет моделе узнавать новые задачи, при этом тратя меньше ресурсов при обучении.
В какой-то момент, изначально в CV, поняли. что можно обучить много адаптеров (каждый на определенную задачу), а потом использовать знания от всех и решать тем самым мульти-таск. Это конечно очень крутая идея, но имеет недостаток в виде забывчивости из-за разного веса каждого адаптера. Тогда приходят люди из deepmind и говорят о том, что вот есть некий подход AdapterFusion (2021), который направлен на то, чтобы решить эту проблему следующим образом в 2 стадии: сначала помимо параметров, обучаеммых в каждом из адаптеров, обучается и еще отдельный параметр, который учится запоминать, что за адаптер мы используем в данный момент, а на втором шаге мы учим с помощьюнеожиданно, но факт механизма внимания, комбинировать вместе все адаптеры. Собственно вся эта конструкция располагается между двумя residual connection
Итак, к чему мы вообще заговорили про комбинирование многих адаптеров вместе. Через некоторое непродолжительное время Deepmind пошли дальше и придумали подход MAD-X, способный за счет адаптеров не только реализовать cross-task модели, но и cross-lingual. Так как обычный pipeline тренировки (когда мы обучаем на новом языке модель с MLM, чтобы выучить язык) ведет опять же к забывчивости модели, ребята откапытвают свой подход FusionAdapter и модифицируют его еще и на обучаемость новым языкам. Теперь подход состоит уже из 3 частей. Adapter-L (адаптер языковой), который по расположению берет свою идею из предыдущей стать и располагает также после residual connection; Adapter-T, который идейно похож на Adapter-L, но располагается после нескольких языковых адаптеров и Invertible Adapters, который направлен на захват преобразований, специфичных для языка на уровне токенов. Идея такая: все эти адаптеры обучаются совместо, естл адаптер языка нового и языка, который уже был в модели, это касается и инфертированного адаптера. При инференсе мы можем отключать один из языков и подавать output от него в адаптер задач. Тем самым модель будет способна решать задачи на разных языках
Возвращаясь к тренировки СodeBert с помощью MAD-X. Они обучили Adapter-L на каждый из языков программирования, представленных в модели CodeBert и 2 задачи, используемые в модели на pretrain (Masked Language Modeling (MLM) – идея из оригинальной статьи BERT и Replaced Token Detection (RTD) – идея из оригинальной статьи ELECTRA). В итоге они получили весьма сравнительные результаты используя лишь адаптеры
🖥 Репозиторий с библиотекой адаптеров
🖥 Код экперементов чуваков
Описанное выше на самом деле находится в этой статье, где авторы делятся опытом transfer learning с помощью адаптеров для создания мультимодальной модели (язык - код). А подводка следующая
Все наверняка уже слышали по 10050 раз, особенно в последнее время о том, что такое адаптер (2019). Но если вспомнить базовый механизм за счет которого все работает, то можно описать следующим образом: берем доп слой, вставляем где-то между слоями исходной модели, и обучаем, замораживая исходные веса. Это позволяет моделе узнавать новые задачи, при этом тратя меньше ресурсов при обучении.
В какой-то момент, изначально в CV, поняли. что можно обучить много адаптеров (каждый на определенную задачу), а потом использовать знания от всех и решать тем самым мульти-таск. Это конечно очень крутая идея, но имеет недостаток в виде забывчивости из-за разного веса каждого адаптера. Тогда приходят люди из deepmind и говорят о том, что вот есть некий подход AdapterFusion (2021), который направлен на то, чтобы решить эту проблему следующим образом в 2 стадии: сначала помимо параметров, обучаеммых в каждом из адаптеров, обучается и еще отдельный параметр, который учится запоминать, что за адаптер мы используем в данный момент, а на втором шаге мы учим с помощью
Итак, к чему мы вообще заговорили про комбинирование многих адаптеров вместе. Через некоторое непродолжительное время Deepmind пошли дальше и придумали подход MAD-X, способный за счет адаптеров не только реализовать cross-task модели, но и cross-lingual. Так как обычный pipeline тренировки (когда мы обучаем на новом языке модель с MLM, чтобы выучить язык) ведет опять же к забывчивости модели, ребята откапытвают свой подход FusionAdapter и модифицируют его еще и на обучаемость новым языкам. Теперь подход состоит уже из 3 частей. Adapter-L (адаптер языковой), который по расположению берет свою идею из предыдущей стать и располагает также после residual connection; Adapter-T, который идейно похож на Adapter-L, но располагается после нескольких языковых адаптеров и Invertible Adapters, который направлен на захват преобразований, специфичных для языка на уровне токенов. Идея такая: все эти адаптеры обучаются совместо, естл адаптер языка нового и языка, который уже был в модели, это касается и инфертированного адаптера. При инференсе мы можем отключать один из языков и подавать output от него в адаптер задач. Тем самым модель будет способна решать задачи на разных языках
Возвращаясь к тренировки СodeBert с помощью MAD-X. Они обучили Adapter-L на каждый из языков программирования, представленных в модели CodeBert и 2 задачи, используемые в модели на pretrain (Masked Language Modeling (MLM) – идея из оригинальной статьи BERT и Replaced Token Detection (RTD) – идея из оригинальной статьи ELECTRA). В итоге они получили весьма сравнительные результаты используя лишь адаптеры
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒17👍6🔥4⚡2❤2
Forwarded from Мишин Лернинг
🦙 Llama 2 — Meta обучили и опенсорснули новую LLM Llama 2 (и внимание!) для коммерческого использования
Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:
— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).
— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)
Опенсорснули Llama 2 с параметрами:
— Llama2-7B
— Llama2-13B
— Llama2-70B
Обидно то, что еще обучали Llama2-34B модель, но не зарелилзили. Именно там самый высокий TruthfulQA = 67.20, против 64.14 у Llama2-70B
Лицензия позволяет юзать Llama-2 не только для ресерча, но и для коммерческих целей!
По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5
📄 Paper
📇 Blog
💻 Download Llama2
Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:
— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).
— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)
Опенсорснули Llama 2 с параметрами:
— Llama2-7B
— Llama2-13B
— Llama2-70B
Обидно то, что еще обучали Llama2-34B модель, но не зарелилзили. Именно там самый высокий TruthfulQA = 67.20, против 64.14 у Llama2-70B
Лицензия позволяет юзать Llama-2 не только для ресерча, но и для коммерческих целей!
По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5
📄 Paper
📇 Blog
💻 Download Llama2
🔥26👍2
Мишин Лернинг
🦙 Llama 2 — Meta обучили и опенсорснули новую LLM Llama 2 (и внимание!) для коммерческого использования Обучили 2 группы моделей: Llama 2 и Llama 2-Chat: — Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили…
how opensource feels in middle 2023:
я не выложил две модели с llama1 они уже устарели...
💯39❤4👾4
Будущее игр.
Уже сейчас музыка подстраивается под вас, тикток-инст-ютуб подкидывает супер релевантный контент, но этого кажется не достаточно.
Будущее развлечений - генеративные игры где все от текстур до механик, сценария, геймплея - сгенерированно, миры меняются на основе того что вы пишете и все это работает на банальном openai api + другие генераторы!
game
Уже сейчас музыка подстраивается под вас, тикток-инст-ютуб подкидывает супер релевантный контент, но этого кажется не достаточно.
Будущее развлечений - генеративные игры где все от текстур до механик, сценария, геймплея - сгенерированно, миры меняются на основе того что вы пишете и все это работает на банальном openai api + другие генераторы!
game
🔥20👎2🤯2🥱2👍1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Купились? На самом деле будет куча(уже полно) нейро стримовых шоу которые будут нарезаться на кеки и те в свою очередь будут циркулировать по сети.
Например наколеночные нейрошарики- нейросеть генерует сценарий, другие озвучивают и в итоге получается шашлык из Бараша.
Стрим
Например наколеночные нейрошарики- нейросеть генерует сценарий, другие озвучивают и в итоге получается шашлык из Бараша.
Стрим
👍37🙈18😁6🌭3❤2🔥2
Вы русский nlpшник? Вам нужна модель под ft, но у saiga слишком низкая плотность токенов, rugpt 13b жирная?
Выход есть!
Siberian Fred это инструктивный файнтюн fredT5 на инструкции, он меньше бредит, неплохо решает text qa и неплохо zsшотиться. Но самое главное - он всего 1.7б параметров, те его можно деплоить практически на любые карты в ggml формате!
Link
Выход есть!
Siberian Fred это инструктивный файнтюн fredT5 на инструкции, он меньше бредит, неплохо решает text qa и неплохо zsшотиться. Но самое главное - он всего 1.7б параметров, те его можно деплоить практически на любые карты в ggml формате!
Link
❤🔥26👍6🤔3❤2✍1🍌1
#чтивонаночь
Meta-Transformer: A Unified Framework for Multimodal Learning
Помните китайские инструменты нож-молоток-плоскогубцы-уровень в одном? Китайцы выпустили meta Transformer - модель с пошернным между модальностями space и при этом с разными энкодерами и головами для разных модальностей.
По метрикам очевидно все плохо, но есть код и веса!
paper
code
Meta-Transformer: A Unified Framework for Multimodal Learning
Помните китайские инструменты нож-молоток-плоскогубцы-уровень в одном? Китайцы выпустили meta Transformer - модель с пошернным между модальностями space и при этом с разными энкодерами и головами для разных модальностей.
По метрикам очевидно все плохо, но есть код и веса!
paper
code
😁23🔥7👎2🕊1