David's random thoughts
2024年连AMD都在新游戏卡上架前几个月就把ROCm支持做好发布了,Intel依然在文档上不写清楚哪一版oneAPI支持哪些显卡。。从非常简单的demo都报错来看大概率是没支持B580的。
我大概明白怎么回事了,不是toolkit不支持而是Debian的intel level zero版本不够新🙃
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。
当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
❤13
David's random thoughts
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。 当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能,与7800XT对比性能与显存带宽大致成比例,后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂(vkpeak的matrix测试也跑不了)
SYCL则是全盘比Linux还差,flash attention也没什么好实现
SYCL则是全盘比Linux还差,flash attention也没什么好实现
👍10
David's random thoughts
一幅裁员裁到大动脉的感觉。。 https://x.com/aschilling/status/1869457604570657065
细看了一眼,这个里面大部分问题都是Windows 11 26100.2161修掉的,而这个版本10月就已经发布,这阵子各家评测应该已经包含这个更新。
0x114微码官方认为游戏性能只有个位数百分点提升,目测就调调prefetcher参数之类的细枝末节。基本上可以认为ARL-S的游戏性能不会有本质变化了吧?
0x114微码官方认为游戏性能只有个位数百分点提升,目测就调调prefetcher参数之类的细枝末节。基本上可以认为ARL-S的游戏性能不会有本质变化了吧?
👎4
😁20😢11👏1
Windows团队现在还有人能理得清这些边边角角的东西并且做好计划翻新一遍吗……我表示怀疑。
https://twitter.com/zacbowden/status/1873416567289200909
https://twitter.com/zacbowden/status/1873416567289200909
X (formerly Twitter)
Zac Bowden (@zacbowden) on X
It's been nearly a decade, and dark mode on Windows is still incomplete lol. Please Microsoft, just finish it... I beg you https://t.co/tyyeXqjbbd
😁9
肉眼粗略观测了Orin的几个CPU频率对应的功耗之后我有点怀疑NS2的CPU会像NS1一样锁到1GHz附近……也许最多1.5GHz。
❤8
用了一段时间发现严肃地用LLM还得用vLLM。llama.cpp 目前两方面不尽人意,以双W7900运行Qwen 72B为例
1. 多卡row split的prefill性能较低,之前的测试里提到过;
2. flash attn超长上下文性能:32K上下文后性能从17t/s降到个位数,而vLLM只从24t/s降到17t/s。
很多坑还是很难从简单跑分里反映出来。
1. 多卡row split的prefill性能较低,之前的测试里提到过;
2. flash attn超长上下文性能:32K上下文后性能从17t/s降到个位数,而vLLM只从24t/s降到17t/s。
很多坑还是很难从简单跑分里反映出来。
世纪大难题:Intel Xe2需要6.12+内核,amdgpu-dkms需要6.11-内核,那么如何让两个设备同时工作呢🙃
🤔17