Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.25K photos
498 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Влияние ножа в печень на скоры ребатла

Влияние локации автора и ревьювера на результаты ревью
😁73👍7😢5🥴4❤‍🔥2🔥2💯2💩11
Посты для младших классов?
Всегда.

https://personal.math.ubc.ca/~PLP/assets/plp.pdf
188🔥5🤓3
Forwarded from Derp Learning
И православная версия
1😇8720💩53😁2👍1🔥1
Love. Death. Transformers.
какая клевая картинка
Prompt caching

В любом нормальном LLM API есть возможность закэшить какой нибудь текст и затем подтянуть по хэшу или как нибудь ещё. Как работает и почему выгодно читайте ниже:

https://sankalp.bearblog.dev/how-prompt-caching-works/
🔥19👍9😐6
113😁8518💊64🥴3😢2💅2❤‍🔥1🔥1💩1
best_sub.csv
1.3 MB
Дарю всем желающим сабмит для санты, который лучше топ паблика
Только одна просьба: поставьте в название команды [t.me/pseudolabeling]

Сейчас саб дает 🥉

Заходим по ссылке, принимем правила и жмем submit predictions
https://www.kaggle.com/competitions/santa-2025/submissions
Please open Telegram to view this post
VIEW IN TELEGRAM
💊22💩7🌚4👍1
Love. Death. Transformers.
https://habr.com/ru/companies/sberdevices/articles/968904/ ДИПСИК ВСЕ — сбер выкатил гигачат ультра статья доехала, ждем папир (Текст не редактировать, информацию в скобках - удалить. Оплата по ранее указанными реквизитам в течение 15 минут после публикации)
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи)

а еще выложили ministral но зачем они если есть gpt oss


blog
😁3614🙉32
канада индийская криптоколония сосать, в этом году god bless america
😁5113🥴5🔥3🍓2🤔1
втф а почему компании выпускают мерч в виде курток, но в виде BOLSHIE KURTKI неь
1😁49🤔7😭3💯2
Love. Death. Transformers.
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи) а еще выложили ministral но зачем они…
arcee Trinity mini

ЕЩЁ ОДИН ДИПСИК А НЕ gpt oss.

Ну ничего через пол года все дружно возьмут архитектуру OSS, прольют много триллионов ПАТРИОТИЧНЫХ 🇺🇸🦅 токенов и точно будет американский опенсурс снова великим а не эээээээ а зачем оно такое нужно?

Типа 26б мое это оч круто для инференса и прода, но для дома... Ну хз, звучит как штука вроде довольно умная, но недостаточно чтобы быть хорошим агентом. В итоге "а зачем?"

По метрикам ну норм, похуже OSS и qwen3 30bA3

Blog
Please open Telegram to view this post
VIEW IN TELEGRAM
😁29🤷‍♂43
This media is not supported in your browser
VIEW IN TELEGRAM
я пожалуй оставлю тут видео с роботом unitree g1 которые в свободной продаже + имеют открытый апи
👾7720🥴10🍌5🔥1👏1
GS AI In a Bubble 2025.pdf
2.4 MB
Goldman Sachs Ai bubble analysis


На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.

зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.

Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)

Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
62🔥17🗿7👍43💯2😁1💩1
realtime

(1sec latency btw)
53😁23🤔73🦄22🔥1
happy internet death day
👏112🤔27109🔥21
Love. Death. Transformers.
GS AI In a Bubble 2025.pdf
Продолжим.

В чем проблема субфронтира? В том что это не фронтир Строить dl сложно, строить современный dl где стало много SWE еще сложнее. В итоге LLM становится yet another backend module, я бы сказал что часто челы которые хорошо пишут промпты и понимают концепции типа react/toolcalling/structured output полезнее чем ресерчеры(слово дебильное), а по итогу проще переплачивать за фронтир и иметь довольных пользователей чем ебать голову что там очередная китайская поделка выдала и как с этим жить



ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.

большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
2😭38🔥9👍52🍓1
я тут собираю новый мем про нищету на грани выжидания, помогите собрать статистику на мем

https://forms.gle/rmCjL3SemzQuVyyt9
1🫡41🔥3
Forwarded from AbstractDL
Virtual Width Networks

Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.

Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.

На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.

VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.

Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.

Статья
1🔥4116👍5😁1💩1🥱1
Я ПРОГРАММИСТ И У МЕНЯ НЕТ ВРЕМЕНИ НА ЭТО, МНЕ НУЖНО ЗАРАБАТЫВАТЬ БАБКИ
Я ПОКУПАЮ ТЕБЯ
🤗13852😁2811🔥8💯5❤‍🔥1💔1😡1
э, mmlu по металлам от норникеля, просто живите с этим ладно?

alloy bench
и файнтюн квена на металл
🍓71🥴2314🔥8😁44🤔22