инференс 13б llm на айфон это не военное приступление. Есть ещё отговорки почему ты не хочешь ее запускать?
🍌45
Love. Death. Transformers.
ChatGPT is dead. Teenagers are now making $15,000/month with modified lead-apatite (LK-99). Here's what this special rock is all about and how you can master it🧵
И теперь комунисты в твиттере объясняют почему нейросети - хуйня!
🥴15😁3💊2
This media is not supported in your browser
VIEW IN TELEGRAM
🥴66🤡22❤10👍8🌚3🤣3🗿3😁2💯2🔥1
int8 обожаю пиздец, это почти как обрезанный член, член есть, но ТОЧНО ЧТО ТО НЕ ТАК
😁47🥴9🍌8🤡5🌚5
Forwarded from underground (Konstantin Korolev)
This media is not supported in your browser
VIEW IN TELEGRAM
Спустя месяцы разработки, сервис наконец-то открыт для первых бета-пользователей.
С помощью vcsurf можно по деку/описанию стартапа: искать потенциальных инвесторов, конкурентов, фаундеров похожих стартапов, похожие умершие стартапы, новости и многое другое.
PH 🔗 — https://www.producthunt.com/posts/vc-surf
*Сейчас поддерживаются обзоры по международному и российскому рынкам
**Feedback — @air_korolev
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡14🔥11❤1
ГО ЖЕСТКО ПОЛОЖИМ ИМ САЙТ!!!!
И накидаем лайков на PH, нешутитьпроpornhub
И накидаем лайков на PH
🤡26👍7🤮4🔥3
Forwarded from что-то на DL-ском
Я проснулась после марафона чтения ШАДовской книжки с новыми методами PEFT нет, я еще не помешалась на адаптерах, но до этого не долго 👨🔬
Compacter, 2021 обещает быть лучше по бенчам, чем мой излюбленный AdapterFusion от DeepMind , но в моем понимании в пределах погрешности. Тем не менее график и результаты – 2 первых вложения. При этом в чем еще плюсы: он также как AdapterFusion и soft prompts позволяет в мультитаск, а также решает проблемы reparametrization-based (хранение в памяти проекционных матриц и исходных. При чем мы говорим о времени до LoRA. В связи с этим, да, эта проблема еще не решена ею и существует); нестабильности и чувствительность к инициализации soft prompts; а также увеличению количества параметров на инференсе адаптеров
Небольшое отступление🙃
На первом скрине также видно, что подход сравнивали с методом BitFit (2021), который относится к селективным методам и соответсвенно подобно pruning обучает sparse представление весов сети. Так вот этот метод при оптимизации оставляет не замороженными только bias-terms и последний слой (3,4 скрины вложений)
Итак, за счет чего compacter сильно уменьшает сложность хранения в памяти и решает проблемы раннее существующих методов, описанных выше:
Начитавшись статьи PHM, в которой авторы предлагают эффективную состыковку матриц с применением суммы произведений Кронекера, которая позволяет уменьшить сложность на 1/n, авторы применяют этот подход к специфичным параметрам адаптера и их общим параметрам (а точнее к их проекционным матрицам). Красивую визуализацию этого процесса можно найти на 5-ом вложении. При чем, почему авторы в принципе акцентуируются на использовании общих параметров? так как при «глубокой» цепочке параметров, модель будет способна запоминать только верхнеуровневые статистики обучающих данных.
🖥 Код Comapacter
🖥 Код BitFit
Compacter, 2021 обещает быть лучше по бенчам, чем мой излюбленный AdapterFusion от DeepMind , но в моем понимании в пределах погрешности. Тем не менее график и результаты – 2 первых вложения. При этом в чем еще плюсы: он также как AdapterFusion и soft prompts позволяет в мультитаск, а также решает проблемы reparametrization-based (хранение в памяти проекционных матриц и исходных. При чем мы говорим о времени до LoRA. В связи с этим, да, эта проблема еще не решена ею и существует); нестабильности и чувствительность к инициализации soft prompts; а также увеличению количества параметров на инференсе адаптеров
Небольшое отступление
На первом скрине также видно, что подход сравнивали с методом BitFit (2021), который относится к селективным методам и соответсвенно подобно pruning обучает sparse представление весов сети. Так вот этот метод при оптимизации оставляет не замороженными только bias-terms и последний слой (3,4 скрины вложений)
Итак, за счет чего compacter сильно уменьшает сложность хранения в памяти и решает проблемы раннее существующих методов, описанных выше:
Начитавшись статьи PHM, в которой авторы предлагают эффективную состыковку матриц с применением суммы произведений Кронекера, которая позволяет уменьшить сложность на 1/n, авторы применяют этот подход к специфичным параметрам адаптера и их общим параметрам (а точнее к их проекционным матрицам). Красивую визуализацию этого процесса можно найти на 5-ом вложении. При чем, почему авторы в принципе акцентуируются на использовании общих параметров? так как при «глубокой» цепочке параметров, модель будет способна запоминать только верхнеуровневые статистики обучающих данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡10❤6👍3🥱2🦄2🔥1👌1
Короче, если хотите сходку в Белграде то откликайтесь под постом, закину в чат
❤🔥10
Forwarded from еба́ные идеи для резерча
Почему комментарии к постам так похожи на обсуждения в singularis?
☃8👨💻3⚡2
Считать pass@n на джунах которые ручками запускают код
🥴37❤3🤡2