https://wow.groq.com/what-nvidia-didnt-say/
Забавный наброс от groq на nvidia. Говорят, что nvidia со своим новым Blackwell лишь масштабирует существующее решение, а нужен иной подход с кастомным железом под задачу. Если верить тому, что скоро все будут упираться в электричество и что они правда 10x более энергоэффективно, то звучит разумно.
Забавный наброс от groq на nvidia. Говорят, что nvidia со своим новым Blackwell лишь масштабирует существующее решение, а нужен иной подход с кастомным железом под задачу. Если верить тому, что скоро все будут упираться в электричество и что они правда 10x более энергоэффективно, то звучит разумно.
Неплохой вводный рассказ от Руссиновича (каждый раз удивляюсь что он CTO Azure) про состояние инфры для обучения.
Потребление per gpu растёт экспоненциально, а рабочая температура у карточек должна быть порядка 30°C, поэтому мучаются об liquid cooling.
В обучении всё всегда упирается в пересылку данных, либо внутри карточки из памяти (HBM3 3 TB/s), либо между карточками внутри сервера (NVLink 1800 GB/s), либо между карточками по сети (Infiniband 400Gb/s). Самый большой Infiniband кластер в Azure специально для OpenAI. Почему-то всё это напоминает L1/L2/L3 кеши в процессоре — там и там нужно как можно быстрее подносить "снаряды" к вычислительным ядрам.
https://www.youtube.com/watch?v=ntKZ5CibuIQ
Потребление per gpu растёт экспоненциально, а рабочая температура у карточек должна быть порядка 30°C, поэтому мучаются об liquid cooling.
В обучении всё всегда упирается в пересылку данных, либо внутри карточки из памяти (HBM3 3 TB/s), либо между карточками внутри сервера (NVLink 1800 GB/s), либо между карточками по сети (Infiniband 400Gb/s). Самый большой Infiniband кластер в Azure специально для OpenAI. Почему-то всё это напоминает L1/L2/L3 кеши в процессоре — там и там нужно как можно быстрее подносить "снаряды" к вычислительным ядрам.
https://www.youtube.com/watch?v=ntKZ5CibuIQ
👍2
Очень интересный запрос разъяснений к Waymo по поводу всяких стюпидов, приятна степень погружения чиновников из NHTSA — https://x.com/WholeMarsBlog/status/1794058035863908708
пару примеров:
https://www.youtube.com/watch?v=UVK-hswkfoE
https://www.youtube.com/watch?v=HAZP-RNSr0s
https://www.youtube.com/watch?v=Mz9IEJOYKuU
Современный уровень развития беспилотных технологий будет содержать какое-то количество таких стюпидов, и тут либо общество должно смириться и забить на них, либо ждать следующего витка эволюции технологий. Лично у меня мало веры в то, что Маск что-то крутое покажет осенью. GPT4o вон не может нормально урлы с этих картинок распарсить, в каждом втором буквы путает.
пару примеров:
https://www.youtube.com/watch?v=UVK-hswkfoE
https://www.youtube.com/watch?v=HAZP-RNSr0s
https://www.youtube.com/watch?v=Mz9IEJOYKuU
Современный уровень развития беспилотных технологий будет содержать какое-то количество таких стюпидов, и тут либо общество должно смириться и забить на них, либо ждать следующего витка эволюции технологий. Лично у меня мало веры в то, что Маск что-то крутое покажет осенью. GPT4o вон не может нормально урлы с этих картинок распарсить, в каждом втором буквы путает.
Оч качественный рассказ про то как самые современные nvidia gpu выжимают TOPS-ы — https://www.youtube.com/watch?v=gofI47kfD28&t=3828s
* За 10 лет TOPS выросли в 10^7
* B200 (после P100, V100, A100, H100) видать так названо потому что просто два чипа склеены
* Самый большой гейн производительности из-за компактизации представления чисел FP32 -> FP16 -> INT8 -> FP4
* Второй по эффекту профит от CISC-инструкций таких как HMMA (12.5x раз)
* Интересная мысль, что оверхед на декодинг для операций перемножения матриц порядка 20%, поэтому специализированное железо не выигрывает GPU по эффективности
* Примерно половину энергии GPU тратит на вычисления, отальное на пересылку данных
* Вообще оч крутая и понятная мысль — важно сколько энергии тратится на вычисление, а сколько на всякое вспомогательное типа fetch/decode. На GPU хочется тратить энергию максимально эффективно, поэтому нужны CISC-инструкции и вредят любые предсказатели ветвления и прочие CPU-дуделки. Современны CPU тратит 50000x больше на всякое паразитное, чем на вычисление.
* Много усилий в Blackwell потратили на FP4 (вот ещё релевантный тред на реддит https://www.reddit.com/r/LocalLLaMA/comments/1bjlu5p/nvidia_blackwell_h200_and_fp4_precision/)
* За 10 лет TOPS выросли в 10^7
* B200 (после P100, V100, A100, H100) видать так названо потому что просто два чипа склеены
* Самый большой гейн производительности из-за компактизации представления чисел FP32 -> FP16 -> INT8 -> FP4
* Второй по эффекту профит от CISC-инструкций таких как HMMA (12.5x раз)
* Интересная мысль, что оверхед на декодинг для операций перемножения матриц порядка 20%, поэтому специализированное железо не выигрывает GPU по эффективности
* Примерно половину энергии GPU тратит на вычисления, отальное на пересылку данных
* Вообще оч крутая и понятная мысль — важно сколько энергии тратится на вычисление, а сколько на всякое вспомогательное типа fetch/decode. На GPU хочется тратить энергию максимально эффективно, поэтому нужны CISC-инструкции и вредят любые предсказатели ветвления и прочие CPU-дуделки. Современны CPU тратит 50000x больше на всякое паразитное, чем на вычисление.
* Много усилий в Blackwell потратили на FP4 (вот ещё релевантный тред на реддит https://www.reddit.com/r/LocalLLaMA/comments/1bjlu5p/nvidia_blackwell_h200_and_fp4_precision/)
👍5
Там вон вышел новый NixOS (24.05). Вообще с nix-ом всё хорошо кроме CUDA (но у кого с ней хорошо), кросс-сборки, нормального встроенного CI, упоротого языка и т д.
Боль неизбежна. Страдание – личный выбор каждого
https://nixos.org/manual/nixos/stable/release-notes#sec-release-24.05
Боль неизбежна. Страдание – личный выбор каждого
https://nixos.org/manual/nixos/stable/release-notes#sec-release-24.05
👍1
Посмотрел киноты NVIDIA и AMD с computex.
* Всё что говорит Jensen Huang это PR для накачки акций, ничему верить нельзя, всё по умолчанию маркетинговый булщет…
* Вскользь пообещили новый Jetson Thor на Blackwell, ждём, крутая железка.
* Интересно что AMD пытаются навязать конкуренцию серверным GPU от NVIDIA, мне конечно AMD сильно более симпатична открытостью стека, надо будем внимательнеее на ROCm поглядеть.
* Всё что говорит Jensen Huang это PR для накачки акций, ничему верить нельзя, всё по умолчанию маркетинговый булщет…
* Вскользь пообещили новый Jetson Thor на Blackwell, ждём, крутая железка.
* Интересно что AMD пытаются навязать конкуренцию серверным GPU от NVIDIA, мне конечно AMD сильно более симпатична открытостью стека, надо будем внимательнеее на ROCm поглядеть.
cuBLAS vs MLIR
Один из лучших докладов, которые помогают понять внутреннее устройство современных NVIDIA GPU. Господа из MLIR/LLVM пытаются реверсинженирить nvidia либы, чтобы натянуть их на MLIR (обобщение llvm IR). Получается с виду хорошо, но больно. Шутки в духе "это то как теперь делаются компиляторы".
В современных deep learning алгоритмах большая часть времени тратится на перемножение матриц aka GEMM (general matrix multiplication) и на, собственно, подкачку данных. Проприетарная и закрытая реализация от NVIDIA — cuBLAS, работает на 20-30% лучше чем вон такие робкие попытки сделать более прямо. Никто не знает какими хаками они внутри это делают.
https://www.youtube.com/watch?v=V3Q9IjsgXvA
Один из лучших докладов, которые помогают понять внутреннее устройство современных NVIDIA GPU. Господа из MLIR/LLVM пытаются реверсинженирить nvidia либы, чтобы натянуть их на MLIR (обобщение llvm IR). Получается с виду хорошо, но больно. Шутки в духе "это то как теперь делаются компиляторы".
В современных deep learning алгоритмах большая часть времени тратится на перемножение матриц aka GEMM (general matrix multiplication) и на, собственно, подкачку данных. Проприетарная и закрытая реализация от NVIDIA — cuBLAS, работает на 20-30% лучше чем вон такие робкие попытки сделать более прямо. Никто не знает какими хаками они внутри это делают.
https://www.youtube.com/watch?v=V3Q9IjsgXvA
🔥1