Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
А где дисс шмидхуберта на сутскевера

бтв, если сильно захотите могу выложить свой лист того что стоит почитать из того что мало упоминается
🔥81👌3
Forwarded from underground (Konstantin Korolev)
This media is not supported in your browser
VIEW IN TELEGRAM
vcsurf на producthunt

Спустя месяцы разработки, сервис наконец-то открыт для первых бета-пользователей.

С помощью vcsurf можно по деку/описанию стартапа: искать потенциальных инвесторов, конкурентов, фаундеров похожих стартапов, похожие умершие стартапы, новости и многое другое.

PH 🔗https://www.producthunt.com/posts/vc-surf

*Сейчас поддерживаются обзоры по международному и российскому рынкам

**Feedback — @air_korolev
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡14🔥111
ГО ЖЕСТКО ПОЛОЖИМ ИМ САЙТ!!!!

И накидаем лайков на PH, нешутитьпроpornhub
🤡26👍7🤮4🔥3
wtf
👀17🗿3🔥1
этот слайд моргенштерн что ли дизайнил
😁23🥴43🤔3🥰2
Я проснулась после марафона чтения ШАДовской книжки с новыми методами PEFT нет, я еще не помешалась на адаптерах, но до этого не долго👨‍🔬

Compacter, 2021 обещает быть лучше по бенчам, чем мой излюбленный AdapterFusion от DeepMind , но в моем понимании в пределах погрешности. Тем не менее график и результаты – 2 первых вложения. При этом в чем еще плюсы: он также как AdapterFusion и soft prompts позволяет в мультитаск, а также решает проблемы reparametrization-based (хранение в памяти проекционных матриц и исходных. При чем мы говорим о времени до LoRA. В связи с этим, да, эта проблема еще не решена ею и существует); нестабильности и чувствительность к инициализации soft prompts; а также увеличению количества параметров на инференсе адаптеров

Небольшое отступление🙃
На первом скрине также видно, что подход сравнивали с методом BitFit (2021), который относится к селективным методам и соответсвенно подобно pruning обучает sparse представление весов сети. Так вот этот метод при оптимизации оставляет не замороженными только bias-terms и последний слой (3,4 скрины вложений)

Итак, за счет чего compacter сильно уменьшает сложность хранения в памяти и решает проблемы раннее существующих методов, описанных выше:

Начитавшись статьи PHM, в которой авторы предлагают эффективную состыковку матриц с применением суммы произведений Кронекера, которая позволяет уменьшить сложность на 1/n, авторы применяют этот подход к специфичным параметрам адаптера и их общим параметрам (а точнее к их проекционным матрицам). Красивую визуализацию этого процесса можно найти на 5-ом вложении. При чем, почему авторы в принципе акцентуируются на использовании общих параметров? так как при «глубокой» цепочке параметров, модель будет способна запоминать только верхнеуровневые статистики обучающих данных.

🖥Код Comapacter
🖥Код BitFit
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
106👍3🥱2🦄2🔥1👌1
Короче, если хотите сходку в Белграде то откликайтесь под постом, закину в чат
❤‍🔥10
👍35😁91
Почему комментарии к постам так похожи на обсуждения в singularis?
8👨‍💻32
Pygmalion по 300, OF по 400
Считать pass@n на джунах которые ручками запускают код
🥴373🤡2
Serbian language model with Kosovo bias
🌚44🥴17🤡6🤣31👍1
😁112🔥16💯12🥰3❤‍🔥1
Завтра с 9 утра до 14 постов не будет.
😁79🍾35😢8🥴4🤓3🤔2🎉2🐳2👍1🌭1💯1
Forwarded from ML-легушька (Николай Кутузов)
35😁2🤡2👍1🤮1
Клевый блогпост про optimum - самый простой способ ускорения инференса трансформеров, дающая х2 скорости!
🔥422👍1