Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
увидел код в репе, показалось что знакомый, пошел искать.

Работал с челом 4 года назад
👍6614🤔74431
Forwarded from КПД
Marlin
[Статьи нет, обычно наоборот][Код]

Marlin, Mixed Auto-Regressive Linear kernel - новое быстрое ядро FP16xINT4 для инференса LLM с большими батчами.

Как известно, вычисления на современных GPU для современных GPU обычно memory bound, и можно получить заметное ускорение даже с fp умножением за счет одной лишь подгрузки весов в кэши. И идеальное ускорение, которое дает INT4 - 4x. Однако с увеличением размера батча, мы начинаем выходить на compute-bound и выигрыш от имеющихся ядер (не использующих tensor cores) исчезает, то есть они становятся медленее fp16 native матричных операций.

В этом репозитории выложена реализация нового ядра, оптимизирующего работу с кэшами и позволяющего иметь значительное ускорение по сравнению с fp16 даже на больших батчах. Основные фичи следующие:
1️⃣ префетчинг
2️⃣ использование активаций в вычислениях несколько раз до загрузки / сгрузки
3️⃣ асинхронная загрузка весов модели
4️⃣ тонкая настройка порядка операций квантования / деквантования и матричных умножений с tensor cores для максимальной утилизации железа
5️⃣ оптимизация конфигурации варпов (групп потоков на GPU)

В итоге удается достичь почти идеального speedup - 4x по сравнению с fp16 на батчах до 32, и иметь ускорение даже на больших (64-128), в то время как безйлайны из bitsandbytes, exllamav2, AWQ становятся в ~2x медленее fp16 с батчей >=16.

Ускорение имеет место на нескольких GPU поколения Ampere - A10, A6000, RTX 3090 и сохраняется даже на пониженных частотах.

На поколении Hopper пока нет реализации.
🔥312👍21
😁12216👏8👍32
Forwarded from Надеждин@
14 миллионов рублей на 71 000 подписей

Уже стабильно собираем по 7000 подписей в день. На сегодня у нас есть 28 752 подписи из необходимых 100 000.

Радуют и темпы сбора пожертвований. Вы невероятные! Нам осталось собрать всего 13.8 млн рублей.

Чем быстрее мы закроем сбор, тем легче нам будет справляться с наплывом освободивших от работы и учебы людей, которые придут ставить подпись в выходные дни. Обязательно приходите в наши штабы и точки сбора!

Вместе мы справимся со всем!

Отправить пожертвование можно на сайте:

https://nadezhdin2024.ru/#donate
104🤮48🤡29👍24👎1684🔥3😁32
если можно попытаться что то сделать - я сделаю.
125🤡492013👍7🤮5🔥4👏11
Альфа геометри

Как говорил мой препод по олимп-матеше - любите геому, вы можете посчитать ее. Всегда.

https://teletype.in/@alexwortega/RN2O2QtH1nQ
79119👎2😁1
Я банкрот... Денег, хоть удавите, нет... Просто хоть в альфонсы нанимайся.

1886 год, 19 января
26 лет
🔥46😢151164
Блоки питания не могут вас слушать, а погоди....
😁4024123
блять как же много вопросов и так мало ответов


chegeka wagner
25😁962👍1🤮1
во всей истории с agi не понятно почему челы из stability не комитяться на AGI от слова совсем
10
#чтивонаночь

Model soups: averaging weights of multiple fine-tuned models
improves accuracy without increasing inference time


Забавная работа - давайте помержим линейно модели так чтобы они показывали лучший accuracy. иииииии это работает?
ну по крайней мере на несколько процентов улучшает точность.
папир
475👍3
Мы релизнули вихрь💨 Нормально.

Проблемы: мы не очень уверены что оно точно аутперформит mistral и saiga mistral. Формально - да, все хорошо.

Цитируя классику

Если вам интересно что мы сделали: хабр

А еще оформили все в красивую HF репу: https://huggingface.co/Vikhrmodels
🔥68🤮55👍41🤔1
😁97👍6🔥432
Forwarded from Dealer.AI
Полет над гнездом LLM - Detect AI Generated Text.

Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.

По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.

Кстати вот те советы , которым мы делились с комьюнити:

1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.

Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.

2. Добавить код с ошибками и опечатками как фичу в бустинг.

Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.

3. Добавить фичу Vectara hallucinations из huggingface model.

Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.

4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.

Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.

2-4 пункты это, как вы поняли, фичи в бустинг.

При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.

Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.


А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
2412👍4🤮32
джун отказавшийся писать на keras стал жертвой скуфской резни
9037108😁6🤡4
Собирать подписи за выдвижение эксперта в мое
👍51229😁32🤡2🤔1
давайте подарим админу тачку с 8h100, я разорюсь скоро такими темпами
52197🤔1
полноприводные гпу для полноприводных llm
😁382