试了下由于rocWMMA是个C++模板库,所以尽管它并不官方支持Windows,想在Windows上用它还是非常简单。
简单的patch就可以加速Windows上llama.cpp在ROCm/HIP下的flash attention推理性能(尤其是prefill和高batch size),需要的可以自行取用。
https://github.com/hjc4869/llama.cpp/releases/tag/b4786
https://github.com/hjc4869/llama.cpp/commit/1e0d34ec232b30913225a4f37cd4bdd173777d3d
简单的patch就可以加速Windows上llama.cpp在ROCm/HIP下的flash attention推理性能(尤其是prefill和高batch size),需要的可以自行取用。
https://github.com/hjc4869/llama.cpp/releases/tag/b4786
https://github.com/hjc4869/llama.cpp/commit/1e0d34ec232b30913225a4f37cd4bdd173777d3d
👏14🫡4
现在搞本地部署主要目标群体是企业而不是个人,个人因为门槛高+利用率上不去会血亏。理论上几个熟人凑一块搭一套出来用也可以搞。
性能方面,本地Windows/Mac部署流行的基于llama.cpp的方案确实是并发差了点。vLLM/SGLang虽然并发性能好很多,但是环境和硬件上的门槛又要更进一步,所以也就这样了吧。
https://x.com/wwwyesterday/status/1895820270901887358
性能方面,本地Windows/Mac部署流行的基于llama.cpp的方案确实是并发差了点。vLLM/SGLang虽然并发性能好很多,但是环境和硬件上的门槛又要更进一步,所以也就这样了吧。
https://x.com/wwwyesterday/status/1895820270901887358
X (formerly Twitter)
wwwgoubuli (@wwwgoubuli) on X
除了闲鱼和一些渠道上还在卖本地部署大模型教程外,绝大多数社媒上,我观察到,本地部署的热度终于下去一点了。
想来是很多人自己试过后,终于明白本地量化后的模型是残废是什么意思了。
跑工作流的人可能也发现了,自己那张卡跑一个并发还行,上了两个就明显变慢,几乎不可用。
想来是很多人自己试过后,终于明白本地量化后的模型是残废是什么意思了。
跑工作流的人可能也发现了,自己那张卡跑一个并发还行,上了两个就明显变慢,几乎不可用。
去年一直觉得Exynos 2400在上海用4G网络经常断流是Exynos的modem有问题,直到最近我把高通8 gen 2机器切换到4G模式用了一段时间,得到了几乎一样的体验……
😁13💊1
虽然我一向不认同什么护城河,但是拿llama.cpp的CUDA/ROCm实现来当靶子也太容易了,什么时候拿Vulkan做个能打vLLM的再说(
https://x.com/karminski3/status/1896412929328902351
https://x.com/karminski3/status/1896412929328902351
X (formerly Twitter)
karminski-牙医 (@karminski3) on X
CUDA 的护城河还能持续多长时间?
图片是 Vulkan 和 CUDA 在 4070 显卡上的token生成速度性能对比。可以看到有些项目仅有10%左右的差距了。(当然目前只是推理,训练还不行)
顺便,Vulkan 是用于与 GPU 进行交互的图形API。是开源的哦
文章地址:https://t.co/Rx5qecQfP8
#大模型竞技场
图片是 Vulkan 和 CUDA 在 4070 显卡上的token生成速度性能对比。可以看到有些项目仅有10%左右的差距了。(当然目前只是推理,训练还不行)
顺便,Vulkan 是用于与 GPU 进行交互的图形API。是开源的哦
文章地址:https://t.co/Rx5qecQfP8
#大模型竞技场
😁23❤1
llama.cpp的rocWMMA flash attention进入主线了,现在可以用RDNA3/3.5/CDNA1+的tensor core加速flash attention实现更好性能的prefill和batch decode。较小模型的单用户吐字速度也有些许提升,应该不会再落后于Vulkan。不过目前主线版本暂时还需要手动打开编译选项。
https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97
https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97
GitHub
HIP: implement FlashAttention via rocWMMA for CDNA and RDNA3+ (#12032) · ggml-org/llama.cpp@becade5
Adds GGML_HIP_ROCWMMA_FATTN and rocwmma header check
Adds rocWMMA support to fattn-wmma-f16
---
Signed-off-by: Carl Klemm <carl@uvos.xyz>
Co-authored-by: Johannes Gäßler <joh...
Adds rocWMMA support to fattn-wmma-f16
---
Signed-off-by: Carl Klemm <carl@uvos.xyz>
Co-authored-by: Johannes Gäßler <joh...
🥰2
Qwen QwQ实际用起来效果比几个DS蒸馏模型要强得多,试了之前几个经典问题都比DS用更少的token做出来。
可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model,以及因为众所周知的原因大概率热度远不如DS😆
可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model,以及因为众所周知的原因大概率热度远不如DS😆
👍27❤1
为什么又聊到Mac跑LLM是行为艺术,因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM),还有一群KOL真的出来测DS 671B跑出将近20t/s
但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。
https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。
https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
🤣36😁7🔥1
.NET Core这种LTS只支持3年还喜欢日常搞breaking change的support policy,后果就是我们一大群屎山业务逻辑代码费了老大的劲移植到 .NET Core 之后还要隔三差五的去升级 .NET 版本修兼容性问题,而隔壁躺平在 .NET 4.7.2 的业务则可以一直享受Windows的无感security patch + 无敌向下兼容。
😁55
这怎么能叫bug呢,明明是无敌feature好吧
https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/
https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/
Windows Latest
Microsoft: Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar
Microsoft confirms Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar. Offers fix.
😁34🍾9
2077 1080p路径追踪RDNA 3 vs 4,后者用上新的traversal指令之后RT shader寄存器压力骤降(240 -> 96),occupation也直接满了(6/16 -> 16/16)。
2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。
2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。
🔥14👍1
David's random thoughts
2017年以来的每一年都是WoA元年,今后的每一年也将继续是🙃 https://x.com/tomshardware/status/1903489920632791148
在PC这种夕阳市场拿到份额有多不容易看隔壁AMD移动端有多难就知道
靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前
为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前
为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
👍37❤1
为什么前段时间说老美航天就算没马斯克也是断档领先。。图里这些火神芯级如果都拿去做VC4/6构型,那么每发都相当于长5运力。这个爆产能的能力恐怖如斯,国内见过这么多长5同框吗
不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣
https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣
https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
X (formerly Twitter)
Zaki Qayoumi (aka Zack) iamzaki.eth (@SUPERFRENCHBIGZ) on X
For your visual enjoyment. The last set was in the Finished Goods Warehouse in Decatur. These are at the Cape. https://t.co/XFROBfCWnP via @torybruno @ulalaunch @LinkedIn #LinkedIn #ULA
😁17🤣5🔥2