NEW BOT Телеграм, страница

David's random thoughts

llama.cpp的rocWMMA flash attention进入主线了，现在可以用RDNA3/3.5/CDNA1+的tensor core加速flash attention实现更好性能的prefill和batch decode。较小模型的单用户吐字速度也有些许提升，应该不会再落后于Vulkan。不过目前主线版本暂时还需要手动打开编译选项。

https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97

GitHub

HIP: implement FlashAttention via rocWMMA for CDNA and RDNA3+ (#12032) · ggml-org/llama.cpp@becade5

Adds GGML_HIP_ROCWMMA_FATTN and rocwmma header check
Adds rocWMMA support to fattn-wmma-f16

---

Signed-off-by: Carl Klemm <carl@uvos.xyz>
Co-authored-by: Johannes Gäßler <joh...

🥰2

1.81K views02:19

David's random thoughts

这可太激动人心了

https://x.com/reaktor_field/status/1896638819367350374

X (formerly Twitter)

🇨🇦ReaktorField🇨🇦 (@reaktor_field) on X

@hardwarecanucks All three media outlets are owned by Future US Inc if that means anything.

🤣8

2.01K views06:38

David's random thoughts

Qwen QwQ实际用起来效果比几个DS蒸馏模型要强得多，试了之前几个经典问题都比DS用更少的token做出来。

可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model，以及因为众所周知的原因大概率热度远不如DS😆

👍27❤1

2.55K views08:17

David's random thoughts

试着往Open WebUI里扔50k token的内容，结果Chrome毫无压力，Firefox死了……🙃

😁30😭15😱1

1.76K views06:09

David's random thoughts

看起来前阵子进pytorch main branch的RDNA4支持现在已经有nightly build出来可以用了。。。。。然而我首发没抢到原价卡🙃

👍12

1.47K views17:05

David's random thoughts

Twitter/X的代码质量现状：想uncheck掉推送里的中文都做不到了。

😁29

1.47K views06:31

David's random thoughts

vLLM 4卡W7800 48G vs 双卡W7900单用户llama 3.3 70B 4bit + 1B 4bit 3-token投机解码

图形卡走PCIe P2P扩展到4卡也还能看到明显收益，最好的情况甚至达到了>50%。

说实话，哪怕不考虑计算卡，只是跟专业图形卡运行vLLM比起来，类似Mac或者多通道服务器CPU LLM方案的性能也有点行为艺术的感觉。。

👍7

1.49K views15:44

David's random thoughts

为什么又聊到Mac跑LLM是行为艺术，因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM)，还有一群KOL真的出来测DS 671B跑出将近20t/s

但是实际情况呢？刚开始确实可以接近20 t/s，但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s，基本不可用。

https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/

🤣36😁7🔥1

2.26K views03:41

David's random thoughts

.NET Core这种LTS只支持3年还喜欢日常搞breaking change的support policy，后果就是我们一大群屎山业务逻辑代码费了老大的劲移植到 .NET Core 之后还要隔三差五的去升级 .NET 版本修兼容性问题，而隔壁躺平在 .NET 4.7.2 的业务则可以一直享受Windows的无感security patch + 无敌向下兼容。

😁55

1.67K views05:43

David's random thoughts

这怎么能叫bug呢，明明是无敌feature好吧

https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/

Windows Latest

Microsoft: Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar

Microsoft confirms Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar. Offers fix.

😁34🍾9

1.62K views14:59

David's random thoughts

2077 1080p路径追踪RDNA 3 vs 4，后者用上新的traversal指令之后RT shader寄存器压力骤降（240 -> 96），occupation也直接满了（6/16 -> 16/16）。

2077的RT shader不算特别复杂，因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。

🔥14👍1

1.72K views06:38

David's random thoughts

🙃o3 mini上个月还能答对的问题现在已经开始胡言乱语了

😁27❤1

1.4K views04:23

David's random thoughts

手动编译develop branch的hipBLASLt之后9070XT的llama.cpp性能表现正常一些了。prefill性能反杀Navi31将近40%，decode性能差距也远小于显存带宽差距。

后面也许可以利用RDNA4的load-transpose之类的新指令进一步做一些优化。可惜游戏卡显存容量还是太小，干不了什么大事。

🔥6

1.47K views02:51

David's random thoughts

2017年以来的每一年都是WoA元年，今后的每一年也将继续是🙃

https://x.com/tomshardware/status/1903489920632791148

X (formerly Twitter)

Tom's Hardware (@tomshardware) on X

‘Frequently returned item' warning slapped on Snapdragon X-powered Surface Laptop 7 at Amazon https://t.co/FEYtRoRYEl

🤣23😁9

2.52K views04:03

David's random thoughts

2017年以来的每一年都是WoA元年，今后的每一年也将继续是🙃 https://x.com/tomshardware/status/1903489920632791148

在PC这种夕阳市场拿到份额有多不容易看隔壁AMD移动端有多难就知道

靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题，再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长，哪代做不到就停滞不前

为了节省成本，他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里

👍37❤1

1.85K views10:18

David's random thoughts

为什么前段时间说老美航天就算没马斯克也是断档领先。。图里这些火神芯级如果都拿去做VC4/6构型，那么每发都相当于长5运力。这个爆产能的能力恐怖如斯，国内见过这么多长5同框吗

不过这种事在媒体选择性报道下都排不上号，除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣

https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636

X (formerly Twitter)

Zaki Qayoumi (aka Zack) iamzaki.eth (@SUPERFRENCHBIGZ) on X

For your visual enjoyment. The last set was in the Finished Goods Warehouse in Decatur. These are at the Cape. https://t.co/XFROBfCWnP via @torybruno @ulalaunch @LinkedIn #LinkedIn #ULA

😁17🤣5🔥2

2.71K views13:05

David's random thoughts

🙃 铺天盖地的营销最后不还是连个AEB都做不明白

😁33🤣3👎1

2.15K views10:57

David's random thoughts

另外我也顺便明白了一件事情。最近的单机游戏很多玩不下去并不是因为我现在不喜欢玩游戏，而是因为游戏本身越来越不好玩了😡

https://x.com/hjc4869/status/1907109523023892647

X (formerly Twitter)

David Huang (@hjc4869) on X

@Yayoi_no_yume 刚换新显卡第一件事情就是拿这个版本重温剧情。。。画面确实强得多，老版本很多做的不够好的特效都有明显的提升

❤14

2.13K views02:54

David's random thoughts

9070XT当前运行llama.cpp的性能/效率如图（开启FA并且使用q8_0的kvcache量化）

ROCm尚未正式支持RDNA4，需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改

可以看到虽然整体效率比起RDNA3已经有明显改进，但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想，此处需要高情商：未来可期

👍16😁3

1.87K views06:12

About

Blog

Apps

Platform