NEW BOT Телеграм, страница

2🥱52🔥37👍1411💩10💋4❤‍🔥1☃1

10.8K views16:56

happy internet death day

👏112🤔27109🔥21

10.1K views09:29

GS AI In a Bubble 2025.pdf

Продолжим.

В чем проблема субфронтира? ~~В том что это не фронтир~~ Строить dl сложно, строить современный dl где стало много SWE еще сложнее. В итоге LLM становится yet another backend module, я бы сказал что часто челы которые хорошо пишут промпты и понимают концепции типа react/toolcalling/structured output полезнее чем ресерчеры(слово дебильное), а по итогу проще переплачивать за фронтир и иметь довольных пользователей чем ебать голову что там очередная китайская поделка выдала и как с этим жить

ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.

большой пост https://news.1rj.ru/str/WaveCut_Vibin/149

2😭38🔥9👍52🍓1

10.6K viewsedited 13:34

Love. Death. Transformers.

я тут собираю новый мем про нищету на грани выжидания, помогите собрать статистику на мем

https://forms.gle/rmCjL3SemzQuVyyt9

1🫡41🔥3

8.15K views09:13

Love. Death. Transformers.

Forwarded from AbstractDL

Virtual Width Networks

Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.

Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.

На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.

VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.

Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.

Статья

1🔥4116👍5😁1💩1🥱1

7.33K views00:06

Love. Death. Transformers.

Я ПРОГРАММИСТ И У МЕНЯ НЕТ ВРЕМЕНИ НА ЭТО, МНЕ НУЖНО ЗАРАБАТЫВАТЬ БАБКИ
Я ПОКУПАЮ ТЕБЯ

🤗13852😁2811🔥8💯5❤‍🔥1💔1😡1

8.74K viewsedited 12:04

Love. Death. Transformers.

э, mmlu по металлам от норникеля, просто живите с этим ладно?

alloy bench
и файнтюн квена на металл

🍓71🥴2314🔥8😁44🤔22

11.4K viewsedited 13:00

Love. Death. Transformers.

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня ты на фкн сидишь, а завтра — «вам без лука?» — говоришь

😁113😢12🔥3🍓2💅11

8.96K viewsedited 18:37

Love. Death. Transformers.

Forwarded from Dendi Math&AI (Денис Димитров)

⚡ Салют, Гига! — уже сегодня

Обещал вернуться с программой — вот она.

Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)

Поговорим:
🔘об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘о добавлении синхронного аудио к видео при генерации;
🔘о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях

Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода

В общем, будет очень насыщенно, интересно и полезно!

Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)

Увидимся! 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

sb-meetup.jugru.org

Салют, Гига!

Конференция Сбера

🗿24💩16👍12🔥6❤‍🔥2

7.94K views10:57

Love. Death. Transformers.

Димитров_CалютГИГА_10.12.25_FINAL.pdf

27.4 MB

а презу интересно полистать саму по себе

1💩22👍20🔥4❤‍🔥3

8.17K viewsedited 10:58

Love. Death. Transformers.

Я не очень хочу превращать в канал в "я сгонял на нипс и смотрите какие умные презы" но если хотите я могу притащить презы с нипса и не только которые мне понравились за последние пару недель

1👍205😁418🔥5👏11

7.73K views12:36

Love. Death. Transformers.

Главное не просить авторов посмотреть на mmlu

1😁19🔥8

8.11K views15:35

Love. Death. Transformers.

red teaming edge llms for noobs.pdf

932 KB

1🥴136🍓52🔥11

7.96K views15:42

Love. Death. Transformers.

Типичный диалог в гей клубе

Я:
"Приветствую!
Я Саша из ресерча, занимаюсь ..
Хочу уточнить такой вопрос: ..."

Собеседник:
"Давай вернусь с ответом в ..."

Я:
"Фига, не знал, что ты админ канала лав дес трансформерс"

Собеседник:
"О, а я не обратил внимания, что ты пидрила"

Или другая ветка

Я:
"Приветствую!
Я пидрила, сосу за сырки..."

Собеседник:
"Привет! ... Где работаешь кстати?"

Я:
"В ресерче, а ты?"

Собеседник:
"О, а я в мехинте"

Вот и пересекаемся 😂

1😁68🥴22💊12🥱44👍3🔥3🍓31

8.16K views16:52

Love. Death. Transformers.

Tim detters - ака автор bitsandbytes подхода для квантизаций который дал сильный буст всему современному в квантизации дропнули пост вида "Why AGI Will Not Happen"

Мне очень нравится

Linear Progress Needs Exponential Resources

Blog

Tim Dettmers

Why AGI Will Not Happen — Tim Dettmers

If you are reading this, you probably have strong opinions about AGI, superintelligence, and the future of AI. Maybe you believe we are on the cusp of a transformative breakthrough. Maybe you are skeptical. This blog post is for those who want to think more…

33😁147👍4🔥2🤔2💯1

8.27K viewsedited 21:30

Love. Death. Transformers.

Дата центр на батарейках в виде префаба, датацентр на колесах, 4 RPI с кубиком, everything is datacenter if you're brave enough

👍37🥴15🔥3😁1

7.93K views23:01

Love. Death. Transformers.

2:02

This media is not supported in your browser

VIEW IN TELEGRAM

Я пожалуй выберу все же не ИИ рекламу, а душевную рекламу супермаркета...

https://news.1rj.ru/str/denissexy/11039

2👍94💔36💯8🥱3🔥2🤔1

8.39K viewsedited 11:05

Love. Death. Transformers.

Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…

яндекс дотюнил квен 235b, вышло в среднем лучше, по технологиям и скиллсету так же
- поменяли токенайзер
- дотрен
- мидтрен
- алаймент с ризонингом(у гигачата нет ризнинга)
- в целом RL пиздато завели

жаль не опенсурс, апи есть но мне лень
habr

Ps

я не сомневаюсь и не ставлю под сомнение харды и навык команды которая это делала, но не поржать над посылом "НАШ СУВЕРЕННЫЙ СДЕЛАННО У НАС (доученный квен)" я не могу, это слишком смешно

77😁38🔥16💩6👍4😢42

8.44K viewsedited 11:47

Love. Death. Transformers.

А если вы понимаете что здесь написано или таким занимаетесь, то приходите работать в whitecircle.ai строить лучший aligment для reward modeling (SOTA на RM bench), а так же защищать весь бесконечный поток аи вайбкодинга:

https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904

Ashbyhq

AI Engineer

AI Engineer • White Circle

😁68🫡12🍓55👍2💊2🔥1

8K viewsedited 12:52

Love. Death. Transformers.

This media is not supported in your browser

VIEW IN TELEGRAM

0:49

11.5K views14:37

😁10728🔥7💩2💯1

Love. Death. Transformers.

Forwarded from Старший Авгур

Теперь все месте, твёрдо и четко:

Alice AI LLM — это совершенно точно, железно, однозначно, стопроцентно, наверняка, без вариантов, гарантированно, стопудово, зуб даю, сто пудов, как пить дать, факт, инфа сотка, базар фильтрую, мамой клянусь, отвечаю, голову даю на отсечение новая, оригинальная, свежая, уникальная, неповторимая, инновационная, небывалая, беспрецедентная, нестандартная, непохожая, самобытная, авторская, эксклюзивная, штучная, единственная в своём роде, первая в своём роде, ни на что не похожая, такого ещё не было, с иголочки, с нуля, незаезженная, незатасканная, невиданная, диковинная модель.

НЕ ФА*Н*ЮН.

😁105🔥15💯9🍓3💅22👍1😍1

7.17K views14:53

About

Blog

Apps

Platform