#чтивонаночь
Идея такая - давайте использовать доп голову которая будет учится и быстренько выбирать кусок который нужно подсунуть чтобы эффективнее работать с контекстом, attn принципиально не меняется, при этом метод работает для уже претренутых моделей, можно дешево доучить уже готовую LLM на 500к контекста и это будет работать.
Нормального сравнения с RoPE, alibi нету, но по памяти метод сильно эффективнее текущих
папир
Идея такая - давайте использовать доп голову которая будет учится и быстренько выбирать кусок который нужно подсунуть чтобы эффективнее работать с контекстом, attn принципиально не меняется, при этом метод работает для уже претренутых моделей, можно дешево доучить уже готовую LLM на 500к контекста и это будет работать.
Нормального сравнения с RoPE, alibi нету, но по памяти метод сильно эффективнее текущих
папир
😍34❤7👍3🥱2😨1
Однажды ии блогер потрогал траву и пеерехал в амст
Однажды ии блогер потрогал траву и перестал писать писатьть
Однажды ии блогер потрогал траву и вселенная схлопнулась
Однажды ии блогер потрогал траву и перестал писать писатьть
Однажды ии блогер потрогал траву и вселенная схлопнулась
Forwarded from Кононюковщина
huggingface.co
aeonium/Aeonium-v0-Base-1B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров.
- 32B токенов в датасете
- 4096 контекстное окно
- Llama в качестве основной архитектуры
- 128k vocab
HuggingFace
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46❤6🤔2🤮2🤡2👎1😁1
Как и 6 лет назад выясняется что просто болталка никого особо не веселит.
🤡30👍13😢5 5🔥1
Что компенсируют когда хотят учить 100В модели? На ответ даётся...
😁43🤔3👍1
Forwarded from РИСЕРЧОШНАЯ
В этом посте я расскажу о том, как музыкальная платформа Deezer, используя метаданные и нейросети, с первых секунд начала рекомендовать новым пользователям персонализированные треки!
В статье вы можете узнать про:
ЧИТАТЬ ПО ССЫЛКЕ
Отдать голос за канал
https://news.1rj.ru/str/boost/persecond300k
Вступить в чат
https://news.1rj.ru/str/persecond300kchat
#RECSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱22 14❤5 5🤡4👍2
РИСЕРЧОШНАЯ
Понятия не имею откуда я украл эту картинку
😁100❤11💯5👍2🔥1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера наткнулся на новый бесплатный софт для смены голоса в режиме реального времени — для всех любителей дискорда, стримов, пранков над коллегами и создателей контента самое то. Внутри 10 голосов и можно настраивать каждый под себя, ставится как доп устройство в ОС
Есть версия под Mac и под Windows:
https://product.supertone.ai/shift
Поигрался — я тоже пикапер в своем роде, знаете ли😎
Есть версия под Mac и под Windows:
https://product.supertone.ai/shift
Поигрался — я тоже пикапер в своем роде, знаете ли
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🤡7🔥3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🤡33😁28👍6🤷♂2❤1
я не буду хайповать по KAN пока не увижу внятного применения, прикольно конечно, но уже были. Но штука крутая идейно, это правда
графовые сетки
спайковые
гиперболические
куча всякой азитащины которую никто кроме авторов не запускал
И все это не используется и заброшено.
графовые сетки
спайковые
гиперболические
куча всякой азитащины которую никто кроме авторов не запускал
И все это не используется и заброшено.
👍74💯13❤3🤡1👾1
Love. Death. Transformers.
#чтивонаночь Давно собирался рассказать про самый интересный папир среди text-image contrastive моделей. Ребята учат за день 400м модель которая лучше чем модель которая училась месяц, так еще и outperform_ят 5B модели. Sigmoid loss for Image-Text Pt дамы…
Кстати температура siglip роляет
✍5👏3❤2
Не давайте украсть у себя память. Почтите павших и поздравьте живых.
С праздником.
С праздником.
❤260❤🔥35💯23💊14🤮9🤡7💩5 4😁2 2🔥1