NEW BOT Телеграм, страница

为什么说vLLM在Strix Halo上值得一试

拿近似架构的W7900来说，双卡使用llama.cpp row split运行70B-72B q8的LLM大约是13 t/s左右的性能。但vLLM+投机解码可以实现30-40 t/s，当然96G显存极其紧张。

70-72B目前在STXH平台使用llama.cpp q4上限大约在5-6 t/s，提升后可能刚好到> 10t/s的高度可用水平。

😁3

1.87K views11:27

David's random thoughts

话说之前一直都看到有人说MLX比llama.cpp快，但是实际测下来好像mlx 4bit vs ggml iq4_xs并没有快多少啊……

🤡3

1.68K views06:46

David's random thoughts

它又开始犯病了……

🤡3😁1

1.27K views03:12

David's random thoughts

昨天还在群里夸Intel 13700H核显SR-IOV有用，今天就被一小时崩溃一次的moonlight以及疑似每次连接都漏200MB显存的RDP server打脸了🙃🙃

🥰20🤡6

1.3K views08:27

David's random thoughts

不知道Intel在倒闭的那一天之前能不能把各种场景漏显存的bug全都修完，从当年刚毕业入职开始这种核显漏内存的场景就没有停过，我怀疑等到我退休它还是这个鬼样。

🔥18⚡1

1.59K views10:03

David's random thoughts

看很多讨论Framework STXH的顶配，但实际反而低配更好玩

799刀门槛低，在北美买套7700板u内存+4060都不止这个价格，这方面STXH居然有性价比。再一个之前讨论过这些设备运行LLM的尴尬，256b位宽适合32B q4模型，就算追求LLM用途也没必要上更大的内存

当然价格方面的结论仅限北美，国内还得深圳系努力

👍14

1.64K views16:50

David's random thoughts

b站上面那一堆fsd翻车视频其实是不是都在免费帮马老板完善edge case训练集。。。

😁29👍1

1.39K views04:55

David's random thoughts

试了下由于rocWMMA是个C++模板库，所以尽管它并不官方支持Windows，想在Windows上用它还是非常简单。

简单的patch就可以加速Windows上llama.cpp在ROCm/HIP下的flash attention推理性能（尤其是prefill和高batch size），需要的可以自行取用。

https://github.com/hjc4869/llama.cpp/releases/tag/b4786
https://github.com/hjc4869/llama.cpp/commit/1e0d34ec232b30913225a4f37cd4bdd173777d3d

👏14🫡4

1.38K views11:28

David's random thoughts

现在搞本地部署主要目标群体是企业而不是个人，个人因为门槛高+利用率上不去会血亏。理论上几个熟人凑一块搭一套出来用也可以搞。

性能方面，本地Windows/Mac部署流行的基于llama.cpp的方案确实是并发差了点。vLLM/SGLang虽然并发性能好很多，但是环境和硬件上的门槛又要更进一步，所以也就这样了吧。

https://x.com/wwwyesterday/status/1895820270901887358

X (formerly Twitter)

wwwgoubuli (@wwwgoubuli) on X

除了闲鱼和一些渠道上还在卖本地部署大模型教程外，绝大多数社媒上，我观察到，本地部署的热度终于下去一点了。

想来是很多人自己试过后，终于明白本地量化后的模型是残废是什么意思了。

跑工作流的人可能也发现了，自己那张卡跑一个并发还行，上了两个就明显变慢，几乎不可用。

1.58K views13:39

David's random thoughts

去年一直觉得Exynos 2400在上海用4G网络经常断流是Exynos的modem有问题，直到最近我把高通8 gen 2机器切换到4G模式用了一段时间，得到了几乎一样的体验……

😁13💊1

1.51K views08:08

David's random thoughts

虽然我一向不认同什么护城河，但是拿llama.cpp的CUDA/ROCm实现来当靶子也太容易了，什么时候拿Vulkan做个能打vLLM的再说（

https://x.com/karminski3/status/1896412929328902351

X (formerly Twitter)

karminski-牙医 (@karminski3) on X

CUDA 的护城河还能持续多长时间？

图片是 Vulkan 和 CUDA 在 4070 显卡上的token生成速度性能对比。可以看到有些项目仅有10%左右的差距了。（当然目前只是推理，训练还不行）

顺便，Vulkan 是用于与 GPU 进行交互的图形API。是开源的哦

文章地址：https://t.co/Rx5qecQfP8

#大模型竞技场

😁23❤1

1.85K views04:29

David's random thoughts

llama.cpp的rocWMMA flash attention进入主线了，现在可以用RDNA3/3.5/CDNA1+的tensor core加速flash attention实现更好性能的prefill和batch decode。较小模型的单用户吐字速度也有些许提升，应该不会再落后于Vulkan。不过目前主线版本暂时还需要手动打开编译选项。

https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97

GitHub

HIP: implement FlashAttention via rocWMMA for CDNA and RDNA3+ (#12032) · ggml-org/llama.cpp@becade5

Adds GGML_HIP_ROCWMMA_FATTN and rocwmma header check
Adds rocWMMA support to fattn-wmma-f16

---

Signed-off-by: Carl Klemm <carl@uvos.xyz>
Co-authored-by: Johannes Gäßler <joh...

🥰2

1.81K views02:19

David's random thoughts

这可太激动人心了

https://x.com/reaktor_field/status/1896638819367350374

X (formerly Twitter)

🇨🇦ReaktorField🇨🇦 (@reaktor_field) on X

@hardwarecanucks All three media outlets are owned by Future US Inc if that means anything.

🤣8

2.01K views06:38