llama.cpp的rocWMMA flash attention进入主线了,现在可以用RDNA3/3.5/CDNA1+的tensor core加速flash attention实现更好性能的prefill和batch decode。较小模型的单用户吐字速度也有些许提升,应该不会再落后于Vulkan。不过目前主线版本暂时还需要手动打开编译选项。
https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97
https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97
GitHub
HIP: implement FlashAttention via rocWMMA for CDNA and RDNA3+ (#12032) · ggml-org/llama.cpp@becade5
Adds GGML_HIP_ROCWMMA_FATTN and rocwmma header check
Adds rocWMMA support to fattn-wmma-f16
---
Signed-off-by: Carl Klemm <carl@uvos.xyz>
Co-authored-by: Johannes Gäßler <joh...
Adds rocWMMA support to fattn-wmma-f16
---
Signed-off-by: Carl Klemm <carl@uvos.xyz>
Co-authored-by: Johannes Gäßler <joh...
🥰2
Qwen QwQ实际用起来效果比几个DS蒸馏模型要强得多,试了之前几个经典问题都比DS用更少的token做出来。
可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model,以及因为众所周知的原因大概率热度远不如DS😆
可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model,以及因为众所周知的原因大概率热度远不如DS😆
👍27❤1
为什么又聊到Mac跑LLM是行为艺术,因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM),还有一群KOL真的出来测DS 671B跑出将近20t/s
但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。
https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。
https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
🤣36😁7🔥1
.NET Core这种LTS只支持3年还喜欢日常搞breaking change的support policy,后果就是我们一大群屎山业务逻辑代码费了老大的劲移植到 .NET Core 之后还要隔三差五的去升级 .NET 版本修兼容性问题,而隔壁躺平在 .NET 4.7.2 的业务则可以一直享受Windows的无感security patch + 无敌向下兼容。
😁55
这怎么能叫bug呢,明明是无敌feature好吧
https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/
https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/
Windows Latest
Microsoft: Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar
Microsoft confirms Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar. Offers fix.
😁34🍾9
2077 1080p路径追踪RDNA 3 vs 4,后者用上新的traversal指令之后RT shader寄存器压力骤降(240 -> 96),occupation也直接满了(6/16 -> 16/16)。
2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。
2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。
🔥14👍1
David's random thoughts
2017年以来的每一年都是WoA元年,今后的每一年也将继续是🙃 https://x.com/tomshardware/status/1903489920632791148
在PC这种夕阳市场拿到份额有多不容易看隔壁AMD移动端有多难就知道
靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前
为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前
为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
👍37❤1
为什么前段时间说老美航天就算没马斯克也是断档领先。。图里这些火神芯级如果都拿去做VC4/6构型,那么每发都相当于长5运力。这个爆产能的能力恐怖如斯,国内见过这么多长5同框吗
不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣
https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣
https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
X (formerly Twitter)
Zaki Qayoumi (aka Zack) iamzaki.eth (@SUPERFRENCHBIGZ) on X
For your visual enjoyment. The last set was in the Finished Goods Warehouse in Decatur. These are at the Cape. https://t.co/XFROBfCWnP via @torybruno @ulalaunch @LinkedIn #LinkedIn #ULA
😁17🤣5🔥2
另外我也顺便明白了一件事情。最近的单机游戏很多玩不下去并不是因为我现在不喜欢玩游戏,而是因为游戏本身越来越不好玩了😡
https://x.com/hjc4869/status/1907109523023892647
https://x.com/hjc4869/status/1907109523023892647
X (formerly Twitter)
David Huang (@hjc4869) on X
@Yayoi_no_yume 刚换新显卡第一件事情就是拿这个版本重温剧情。。。画面确实强得多,老版本很多做的不够好的特效都有明显的提升
❤14
9070XT当前运行llama.cpp的性能/效率如图(开启FA并且使用q8_0的kvcache量化)
ROCm尚未正式支持RDNA4,需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改
可以看到虽然整体效率比起RDNA3已经有明显改进,但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想,此处需要高情商:未来可期
ROCm尚未正式支持RDNA4,需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改
可以看到虽然整体效率比起RDNA3已经有明显改进,但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想,此处需要高情商:未来可期
👍16😁3