Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Love. Death. Transformers.
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи) а еще выложили ministral но зачем они…
arcee Trinity mini

ЕЩЁ ОДИН ДИПСИК А НЕ gpt oss.

Ну ничего через пол года все дружно возьмут архитектуру OSS, прольют много триллионов ПАТРИОТИЧНЫХ 🇺🇸🦅 токенов и точно будет американский опенсурс снова великим а не эээээээ а зачем оно такое нужно?

Типа 26б мое это оч круто для инференса и прода, но для дома... Ну хз, звучит как штука вроде довольно умная, но недостаточно чтобы быть хорошим агентом. В итоге "а зачем?"

По метрикам ну норм, похуже OSS и qwen3 30bA3

Blog
Please open Telegram to view this post
VIEW IN TELEGRAM
😁29🤷‍♂43
This media is not supported in your browser
VIEW IN TELEGRAM
я пожалуй оставлю тут видео с роботом unitree g1 которые в свободной продаже + имеют открытый апи
👾7720🥴10🍌5🔥1👏1
GS AI In a Bubble 2025.pdf
2.4 MB
Goldman Sachs Ai bubble analysis


На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.

зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.

Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)

Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
62🔥17🗿7👍43💯2😁1💩1
realtime

(1sec latency btw)
53😁23🤔73🦄22🔥1
happy internet death day
👏112🤔27109🔥21
Love. Death. Transformers.
GS AI In a Bubble 2025.pdf
Продолжим.

В чем проблема субфронтира? В том что это не фронтир Строить dl сложно, строить современный dl где стало много SWE еще сложнее. В итоге LLM становится yet another backend module, я бы сказал что часто челы которые хорошо пишут промпты и понимают концепции типа react/toolcalling/structured output полезнее чем ресерчеры(слово дебильное), а по итогу проще переплачивать за фронтир и иметь довольных пользователей чем ебать голову что там очередная китайская поделка выдала и как с этим жить



ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.

большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
2😭38🔥9👍52🍓1
я тут собираю новый мем про нищету на грани выжидания, помогите собрать статистику на мем

https://forms.gle/rmCjL3SemzQuVyyt9
1🫡41🔥3
Forwarded from AbstractDL
Virtual Width Networks

Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.

Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.

На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.

VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.

Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.

Статья
1🔥4116👍5😁1💩1🥱1
Я ПРОГРАММИСТ И У МЕНЯ НЕТ ВРЕМЕНИ НА ЭТО, МНЕ НУЖНО ЗАРАБАТЫВАТЬ БАБКИ
Я ПОКУПАЮ ТЕБЯ
🤗13852😁2811🔥8💯5❤‍🔥1💔1😡1
э, mmlu по металлам от норникеля, просто живите с этим ладно?

alloy bench
и файнтюн квена на металл
🍓71🥴2314🔥8😁44🤔22
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня ты на фкн сидишь, а завтра — «вам без лука?» — говоришь
😁113😢12🔥3🍓2💅11
Forwarded from Dendi Math&AI (Денис Димитров)
Салют, Гига! — уже сегодня

Обещал вернуться с программой — вот она.

Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)

Поговорим:
🔘об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘о добавлении синхронного аудио к видео при генерации;
🔘о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях

Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода

В общем, будет очень насыщенно, интересно и полезно!

Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)

Увидимся! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿24💩16👍12🔥6❤‍🔥2
Димитров_CалютГИГА_10.12.25_FINAL.pdf
27.4 MB
а презу интересно полистать саму по себе
1💩22👍20🔥4❤‍🔥3
Я не очень хочу превращать в канал в "я сгонял на нипс и смотрите какие умные презы" но если хотите я могу притащить презы с нипса и не только которые мне понравились за последние пару недель
1👍205😁418🔥5👏11
Главное не просить авторов посмотреть на mmlu
1😁19🔥8
Типичный диалог в гей клубе

Я:
"Приветствую!
Я Саша из ресерча, занимаюсь ..
Хочу уточнить такой вопрос: ..."

Собеседник:
"Давай вернусь с ответом в ..."

Я:
"Фига, не знал, что ты админ канала лав дес трансформерс"

Собеседник:
"О, а я не обратил внимания, что ты пидрила"

Или другая ветка

Я:
"Приветствую!
Я пидрила, сосу за сырки..."

Собеседник:
"Привет! ... Где работаешь кстати?"

Я:
"В ресерче, а ты?"

Собеседник:
"О, а я в мехинте"

Вот и пересекаемся 😂
1😁68🥴22💊12🥱44👍3🔥3🍓31
Tim detters - ака автор bitsandbytes подхода для квантизаций который дал сильный буст всему современному в квантизации дропнули пост вида "Why AGI Will Not Happen"

Мне очень нравится

Linear Progress Needs Exponential Resources



Blog
33😁147👍4🔥2🤔2💯1
Дата центр на батарейках в виде префаба, датацентр на колесах, 4 RPI с кубиком, everything is datacenter if you're brave enough
👍37🥴15🔥3😁1