NEW BOT Телеграм, страница

Tech Mumble

https://wow.groq.com/what-nvidia-didnt-say/

Забавный наброс от groq на nvidia. Говорят, что nvidia со своим новым Blackwell лишь масштабирует существующее решение, а нужен иной подход с кастомным железом под задачу. Если верить тому, что скоро все будут упираться в электричество и что они правда 10x более энергоэффективно, то звучит разумно.

260 views17:26

Tech Mumble

🙈1

203 views07:40

Tech Mumble

Неплохой вводный рассказ от Руссиновича (каждый раз удивляюсь что он CTO Azure) про состояние инфры для обучения.

Потребление per gpu растёт экспоненциально, а рабочая температура у карточек должна быть порядка 30°C, поэтому мучаются об liquid cooling.

В обучении всё всегда упирается в пересылку данных, либо внутри карточки из памяти (HBM3 3 TB/s), либо между карточками внутри сервера (NVLink 1800 GB/s), либо между карточками по сети (Infiniband 400Gb/s). Самый большой Infiniband кластер в Azure специально для OpenAI. Почему-то всё это напоминает L1/L2/L3 кеши в процессоре — там и там нужно как можно быстрее подносить "снаряды" к вычислительным ядрам.

https://www.youtube.com/watch?v=ntKZ5CibuIQ

👍2

214 views07:47

Tech Mumble

Очень интересный запрос разъяснений к Waymo по поводу всяких стюпидов, приятна степень погружения чиновников из NHTSA — https://x.com/WholeMarsBlog/status/1794058035863908708

пару примеров:
https://www.youtube.com/watch?v=UVK-hswkfoE
https://www.youtube.com/watch?v=HAZP-RNSr0s
https://www.youtube.com/watch?v=Mz9IEJOYKuU

Современный уровень развития беспилотных технологий будет содержать какое-то количество таких стюпидов, и тут либо общество должно смириться и забить на них, либо ждать следующего витка эволюции технологий. Лично у меня мало веры в то, что Маск что-то крутое покажет осенью. GPT4o вон не может нормально урлы с этих картинок распарсить, в каждом втором буквы путает.

552 views17:12

Tech Mumble

дед с батей сцепились по пьяни

😁6

233 views17:49

Tech Mumble

1x1 переоценены, какой-то карго-культ

https://x.com/karpathy/status/1796556328078619103

🤔4💯1

208 views15:09

Tech Mumble

Оч качественный рассказ про то как самые современные nvidia gpu выжимают TOPS-ы — https://www.youtube.com/watch?v=gofI47kfD28&t=3828s

* За 10 лет TOPS выросли в 10^7
* B200 (после P100, V100, A100, H100) видать так названо потому что просто два чипа склеены
* Самый большой гейн производительности из-за компактизации представления чисел FP32 -> FP16 -> INT8 -> FP4
* Второй по эффекту профит от CISC-инструкций таких как HMMA (12.5x раз)
* Интересная мысль, что оверхед на декодинг для операций перемножения матриц порядка 20%, поэтому специализированное железо не выигрывает GPU по эффективности
* Примерно половину энергии GPU тратит на вычисления, отальное на пересылку данных
* Вообще оч крутая и понятная мысль — важно сколько энергии тратится на вычисление, а сколько на всякое вспомогательное типа fetch/decode. На GPU хочется тратить энергию максимально эффективно, поэтому нужны CISC-инструкции и вредят любые предсказатели ветвления и прочие CPU-дуделки. Современны CPU тратит 50000x больше на всякое паразитное, чем на вычисление.
* Много усилий в Blackwell потратили на FP4 (вот ещё релевантный тред на реддит https://www.reddit.com/r/LocalLLaMA/comments/1bjlu5p/nvidia_blackwell_h200_and_fp4_precision/)

👍5

292 viewsedited 20:09

Tech Mumble

Там вон вышел новый NixOS (24.05). Вообще с nix-ом всё хорошо кроме CUDA (но у кого с ней хорошо), кросс-сборки, нормального встроенного CI, упоротого языка и т д.

Боль неизбежна. Страдание – личный выбор каждого

https://nixos.org/manual/nixos/stable/release-notes#sec-release-24.05

👍1

371 views21:50

Tech Mumble

Посмотрел киноты NVIDIA и AMD с computex.

* Всё что говорит Jensen Huang это PR для накачки акций, ничему верить нельзя, всё по умолчанию маркетинговый булщет…
* Вскользь пообещили новый Jetson Thor на Blackwell, ждём, крутая железка.
* Интересно что AMD пытаются навязать конкуренцию серверным GPU от NVIDIA, мне конечно AMD сильно более симпатична открытостью стека, надо будем внимательнеее на ROCm поглядеть.

349 views15:44

Tech Mumble

Rwanda: 2

321 views22:41

Tech Mumble

cuBLAS vs MLIR

Один из лучших докладов, которые помогают понять внутреннее устройство современных NVIDIA GPU. Господа из MLIR/LLVM пытаются реверсинженирить nvidia либы, чтобы натянуть их на MLIR (обобщение llvm IR). Получается с виду хорошо, но больно. Шутки в духе "это то как теперь делаются компиляторы".

В современных deep learning алгоритмах большая часть времени тратится на перемножение матриц aka GEMM (general matrix multiplication) и на, собственно, подкачку данных. Проприетарная и закрытая реализация от NVIDIA — cuBLAS, работает на 20-30% лучше чем вон такие робкие попытки сделать более прямо. Никто не знает какими хаками они внутри это делают.

https://www.youtube.com/watch?v=V3Q9IjsgXvA

🔥1

5.13K viewsedited 19:24

Tech Mumble

264 views11:46

About

Blog

Apps

Platform