Влияние ножа в печень на скоры ребатла
Влияние локации автора и ревьювера на результаты ревью
Влияние локации автора и ревьювера на результаты ревью
😁73👍7😢5🥴4❤🔥2🔥2💯2💩1 1
Love. Death. Transformers.
какая клевая картинка
Prompt caching
В любом нормальном LLM API есть возможность закэшить какой нибудь текст и затем подтянуть по хэшу или как нибудь ещё. Как работает и почему выгодно читайте ниже:
https://sankalp.bearblog.dev/how-prompt-caching-works/
В любом нормальном LLM API есть возможность закэшить какой нибудь текст и затем подтянуть по хэшу или как нибудь ещё. Как работает и почему выгодно читайте ниже:
https://sankalp.bearblog.dev/how-prompt-caching-works/
sankalp's blog
How prompt caching works - Paged Attention and Automatic Prefix Caching plus practical tips
A deep dive into prompt caching - practical tips to improve cache hits and how vLLM's paged attention enables KV-cache reuse across requests via automatic prefix-caching
🔥19👍9😐6
Forwarded from Запрети мне псевдолейблить
best_sub.csv
1.3 MB
Дарю всем желающим сабмит для санты, который лучше топ паблика
Только одна просьба: поставьте в название команды [t.me/pseudolabeling]
Сейчас саб дает🥉
Заходим по ссылке, принимем правила и жмем submit predictions
https://www.kaggle.com/competitions/santa-2025/submissions
Только одна просьба: поставьте в название команды [t.me/pseudolabeling]
Сейчас саб дает
Заходим по ссылке, принимем правила и жмем submit predictions
https://www.kaggle.com/competitions/santa-2025/submissions
Please open Telegram to view this post
VIEW IN TELEGRAM
💊22💩7🌚4👍1
Love. Death. Transformers.
https://habr.com/ru/companies/sberdevices/articles/968904/ ДИПСИК ВСЕ — сбер выкатил гигачат ультра статья доехала, ждем папир (Текст не редактировать, информацию в скобках - удалить. Оплата по ранее указанными реквизитам в течение 15 минут после публикации)
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи)
а еще выложили ministral но зачем они если есть gpt oss
blog
а еще выложили ministral но зачем они если есть gpt oss
blog
😁36 14🙉3 2
втф а почему компании выпускают мерч в виде курток, но в виде BOLSHIE KURTKI неь
1😁49🤔7😭3💯2
Love. Death. Transformers.
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи) а еще выложили ministral но зачем они…
arcee Trinity mini
ЕЩЁ ОДИН ДИПСИК А НЕ gpt oss.
Ну ничего через пол года все дружно возьмут архитектуру OSS, прольют много триллионов ПАТРИОТИЧНЫХ🇺🇸 🦅 токенов и точно будет американский опенсурс снова великим а не эээээээ а зачем оно такое нужно?
Типа 26б мое это оч круто для инференса и прода, но для дома... Ну хз, звучит как штука вроде довольно умная, но недостаточно чтобы быть хорошим агентом. В итоге "а зачем?"
По метрикам ну норм, похуже OSS и qwen3 30bA3
Blog
ЕЩЁ ОДИН ДИПСИК А НЕ gpt oss.
Ну ничего через пол года все дружно возьмут архитектуру OSS, прольют много триллионов ПАТРИОТИЧНЫХ
Типа 26б мое это оч круто для инференса и прода, но для дома... Ну хз, звучит как штука вроде довольно умная, но недостаточно чтобы быть хорошим агентом. В итоге "а зачем?"
По метрикам ну норм, похуже OSS и qwen3 30bA3
Blog
Please open Telegram to view this post
VIEW IN TELEGRAM
www.arcee.ai
Arcee AI | Arcee Debuts Trinity Mini, Expanding Its U.S.-Built Model Line
Introducing Trinity Mini, a compact MoE model trained end-to-end in the U.S., offering open weights, strong reasoning, and full control for developers.
😁29🤷♂4 3
This media is not supported in your browser
VIEW IN TELEGRAM
я пожалуй оставлю тут видео с роботом unitree g1 которые в свободной продаже + имеют открытый апи
👾77 20🥴10🍌5🔥1👏1
Я знаю штук 7 способов измерить mmlu и показать результаты от около рандома до около идеала. А зачем
https://huggingface.co/spaces/OpenEvals/evaluation-guidebook
https://huggingface.co/spaces/OpenEvals/evaluation-guidebook
huggingface.co
Evaluation Guidebook - a Hugging Face Space by OpenEvals
This application displays and visualizes benchmark evaluation data for Large Language Models, showing their performance over time across different categories. Users can view charts and tooltips tha...
😁38🔥6 2🤔1
GS AI In a Bubble 2025.pdf
2.4 MB
Goldman Sachs Ai bubble analysis
На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.
зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.
Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)
Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.
зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.
Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)
Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
This media is not supported in your browser
VIEW IN TELEGRAM
2🥱52🔥37👍14 11💩10💋4❤🔥1☃1
Love. Death. Transformers.
GS AI In a Bubble 2025.pdf
Продолжим.
В чем проблема субфронтира?В том что это не фронтир Строить dl сложно, строить современный dl где стало много SWE еще сложнее. В итоге LLM становится yet another backend module, я бы сказал что часто челы которые хорошо пишут промпты и понимают концепции типа react/toolcalling/structured output полезнее чем ресерчеры(слово дебильное), а по итогу проще переплачивать за фронтир и иметь довольных пользователей чем ебать голову что там очередная китайская поделка выдала и как с этим жить
ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.
большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
В чем проблема субфронтира?
ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.
большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
2😭38🔥9👍5 2🍓1
я тут собираю новый мем про нищету на грани выжидания, помогите собрать статистику на мем
https://forms.gle/rmCjL3SemzQuVyyt9
https://forms.gle/rmCjL3SemzQuVyyt9
1🫡41🔥3
Forwarded from AbstractDL
Virtual Width Networks
Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.
Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.
На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.
VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.
Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.
Статья
Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.
Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.
На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.
VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.
Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.
Статья
1🔥41 16👍5😁1💩1🥱1