увидел код в репе, показалось что знакомый, пошел искать.
Работал с челом 4 года назад
Работал с челом 4 года назад
👍66 14🤔7❤4 4 3 1
Forwarded from КПД
Marlin
[Статьи нет, обычно наоборот][Код]
Marlin, Mixed Auto-Regressive Linear kernel - новое быстрое ядро FP16xINT4 для инференса LLM с большими батчами.
Как известно, вычисления на современных GPU для современных GPU обычно memory bound, и можно получить заметное ускорение даже с fp умножением за счет одной лишь подгрузки весов в кэши. И идеальное ускорение, которое дает INT4 - 4x. Однако с увеличением размера батча, мы начинаем выходить на compute-bound и выигрыш от имеющихся ядер (не использующих tensor cores) исчезает, то есть они становятся медленее fp16 native матричных операций.
В этом репозитории выложена реализация нового ядра, оптимизирующего работу с кэшами и позволяющего иметь значительное ускорение по сравнению с fp16 даже на больших батчах. Основные фичи следующие:
1️⃣ префетчинг
2️⃣ использование активаций в вычислениях несколько раз до загрузки / сгрузки
3️⃣ асинхронная загрузка весов модели
4️⃣ тонкая настройка порядка операций квантования / деквантования и матричных умножений с tensor cores для максимальной утилизации железа
5️⃣ оптимизация конфигурации варпов (групп потоков на GPU)
В итоге удается достичь почти идеального speedup - 4x по сравнению с fp16 на батчах до 32, и иметь ускорение даже на больших (64-128), в то время как безйлайны из bitsandbytes, exllamav2, AWQ становятся в ~2x медленее fp16 с батчей >=16.
Ускорение имеет место на нескольких GPU поколения Ampere - A10, A6000, RTX 3090 и сохраняется даже на пониженных частотах.
На поколении Hopper пока нет реализации.
[Статьи нет, обычно наоборот][Код]
Marlin, Mixed Auto-Regressive Linear kernel - новое быстрое ядро FP16xINT4 для инференса LLM с большими батчами.
Как известно, вычисления на современных GPU для современных GPU обычно memory bound, и можно получить заметное ускорение даже с fp умножением за счет одной лишь подгрузки весов в кэши. И идеальное ускорение, которое дает INT4 - 4x. Однако с увеличением размера батча, мы начинаем выходить на compute-bound и выигрыш от имеющихся ядер (не использующих tensor cores) исчезает, то есть они становятся медленее fp16 native матричных операций.
В этом репозитории выложена реализация нового ядра, оптимизирующего работу с кэшами и позволяющего иметь значительное ускорение по сравнению с fp16 даже на больших батчах. Основные фичи следующие:
1️⃣ префетчинг
2️⃣ использование активаций в вычислениях несколько раз до загрузки / сгрузки
3️⃣ асинхронная загрузка весов модели
4️⃣ тонкая настройка порядка операций квантования / деквантования и матричных умножений с tensor cores для максимальной утилизации железа
5️⃣ оптимизация конфигурации варпов (групп потоков на GPU)
В итоге удается достичь почти идеального speedup - 4x по сравнению с fp16 на батчах до 32, и иметь ускорение даже на больших (64-128), в то время как безйлайны из bitsandbytes, exllamav2, AWQ становятся в ~2x медленее fp16 с батчей >=16.
Ускорение имеет место на нескольких GPU поколения Ampere - A10, A6000, RTX 3090 и сохраняется даже на пониженных частотах.
На поколении Hopper пока нет реализации.
🔥31❤2👍2 1
Forwarded from Надеждин@
14 миллионов рублей на 71 000 подписей
Уже стабильно собираем по 7000 подписей в день. На сегодня у нас есть 28 752 подписи из необходимых 100 000.
Радуют и темпы сбора пожертвований. Вы невероятные! Нам осталось собрать всего 13.8 млн рублей.
Чем быстрее мы закроем сбор, тем легче нам будет справляться с наплывом освободивших от работы и учебы людей, которые придут ставить подпись в выходные дни. Обязательно приходите в наши штабы и точки сбора!
Вместе мы справимся со всем!
Отправить пожертвование можно на сайте:
https://nadezhdin2024.ru/#donate
Уже стабильно собираем по 7000 подписей в день. На сегодня у нас есть 28 752 подписи из необходимых 100 000.
Радуют и темпы сбора пожертвований. Вы невероятные! Нам осталось собрать всего 13.8 млн рублей.
Чем быстрее мы закроем сбор, тем легче нам будет справляться с наплывом освободивших от работы и учебы людей, которые придут ставить подпись в выходные дни. Обязательно приходите в наши штабы и точки сбора!
Вместе мы справимся со всем!
Отправить пожертвование можно на сайте:
https://nadezhdin2024.ru/#donate
❤104🤮48🤡29👍24👎16 8 4🔥3😁3 2
если можно попытаться что то сделать - я сделаю.
❤125🤡49 20 13👍7🤮5🔥4👏1 1
Альфа геометри
Как говорил мой препод по олимп-матеше - любите геому, вы можете посчитать ее. Всегда.
https://teletype.in/@alexwortega/RN2O2QtH1nQ
Как говорил мой препод по олимп-матеше - любите геому, вы можете посчитать ее. Всегда.
https://teletype.in/@alexwortega/RN2O2QtH1nQ
❤79 11 9👎2😁1
Forwarded from Антон Чехов. Лайфстайл
Я банкрот... Денег, хоть удавите, нет... Просто хоть в альфонсы нанимайся.
1886 год, 19 января
26 лет
1886 год, 19 января
26 лет
🔥46😢15 11 6 4
во всей истории с agi не понятно почему челы из stability не комитяться на AGI от слова совсем
#чтивонаночь
Model soups: averaging weights of multiple fine-tuned models
improves accuracy without increasing inference time
Забавная работа - давайте помержим линейно модели так чтобы они показывали лучший accuracy. иииииии это работает?
ну по крайней мере на несколько процентов улучшает точность.
папир
Model soups: averaging weights of multiple fine-tuned models
improves accuracy without increasing inference time
Забавная работа - давайте помержим линейно модели так чтобы они показывали лучший accuracy. иииииии это работает?
ну по крайней мере на несколько процентов улучшает точность.
папир
Мы релизнули вихрь💨 Нормально.
Проблемы: мы не очень уверены что оно точно аутперформит mistral и saiga mistral. Формально - да, все хорошо.
Цитируя классику
Если вам интересно что мы сделали: хабр
А еще оформили все в красивую HF репу: https://huggingface.co/Vikhrmodels
Проблемы: мы не очень уверены что оно точно аутперформит mistral и saiga mistral. Формально - да, все хорошо.
Цитируя классику
Если вам интересно что мы сделали: хабр
А еще оформили все в красивую HF репу: https://huggingface.co/Vikhrmodels
🔥68🤮5 5👍4❤1🤔1
Forwarded from Dealer.AI
Полет над гнездом LLM - Detect AI Generated Text.
Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.
По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.
Кстати вот те советы , которым мы делились с комьюнити:
1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.
Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.
2. Добавить код с ошибками и опечатками как фичу в бустинг.
Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.
3. Добавить фичу Vectara hallucinations из huggingface model.
Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.
4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.
Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.
2-4 пункты это, как вы поняли, фичи в бустинг.
При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.
Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.
А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.
По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.
Кстати вот те советы , которым мы делились с комьюнити:
1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.
Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.
2. Добавить код с ошибками и опечатками как фичу в бустинг.
Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.
3. Добавить фичу Vectara hallucinations из huggingface model.
Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.
4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.
Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.
2-4 пункты это, как вы поняли, фичи в бустинг.
При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.
Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.
А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
Telegram
Dealer.AI
Новый NLP сорев на kaggle.
В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.
Кстати советую почитать каналы:
1. Юрия Кашницкого
2. И Техножрицы
Всё на тему детекции…
В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.
Кстати советую почитать каналы:
1. Юрия Кашницкого
2. И Техножрицы
Всё на тему детекции…
❤24 12👍4🤮3 2
джун отказавшийся писать на keras стал жертвой скуфской резни
Forwarded from еба́ные идеи для резерча
Собирать подписи за выдвижение эксперта в мое
👍51 22 9😁3❤2🤡2🤔1
давайте подарим админу тачку с 8h100, я разорюсь скоро такими темпами