David's random thoughts
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。 当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能,与7800XT对比性能与显存带宽大致成比例,后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂(vkpeak的matrix测试也跑不了)
SYCL则是全盘比Linux还差,flash attention也没什么好实现
SYCL则是全盘比Linux还差,flash attention也没什么好实现
👍10
David's random thoughts
一幅裁员裁到大动脉的感觉。。 https://x.com/aschilling/status/1869457604570657065
细看了一眼,这个里面大部分问题都是Windows 11 26100.2161修掉的,而这个版本10月就已经发布,这阵子各家评测应该已经包含这个更新。
0x114微码官方认为游戏性能只有个位数百分点提升,目测就调调prefetcher参数之类的细枝末节。基本上可以认为ARL-S的游戏性能不会有本质变化了吧?
0x114微码官方认为游戏性能只有个位数百分点提升,目测就调调prefetcher参数之类的细枝末节。基本上可以认为ARL-S的游戏性能不会有本质变化了吧?
👎4
😁20😢11👏1
Windows团队现在还有人能理得清这些边边角角的东西并且做好计划翻新一遍吗……我表示怀疑。
https://twitter.com/zacbowden/status/1873416567289200909
https://twitter.com/zacbowden/status/1873416567289200909
X (formerly Twitter)
Zac Bowden (@zacbowden) on X
It's been nearly a decade, and dark mode on Windows is still incomplete lol. Please Microsoft, just finish it... I beg you https://t.co/tyyeXqjbbd
😁9
肉眼粗略观测了Orin的几个CPU频率对应的功耗之后我有点怀疑NS2的CPU会像NS1一样锁到1GHz附近……也许最多1.5GHz。
❤8
用了一段时间发现严肃地用LLM还得用vLLM。llama.cpp 目前两方面不尽人意,以双W7900运行Qwen 72B为例
1. 多卡row split的prefill性能较低,之前的测试里提到过;
2. flash attn超长上下文性能:32K上下文后性能从17t/s降到个位数,而vLLM只从24t/s降到17t/s。
很多坑还是很难从简单跑分里反映出来。
1. 多卡row split的prefill性能较低,之前的测试里提到过;
2. flash attn超长上下文性能:32K上下文后性能从17t/s降到个位数,而vLLM只从24t/s降到17t/s。
很多坑还是很难从简单跑分里反映出来。
世纪大难题:Intel Xe2需要6.12+内核,amdgpu-dkms需要6.11-内核,那么如何让两个设备同时工作呢🙃
🤔17
🤣21
偶尔拿出笔记本电脑时最让人欣喜的两句话:Updates are underway. Please keep your computer on.
😭22😁10😈6
David's random thoughts
喝多了…… https://twitter.com/SenBillNelson/status/1879492297647407480
X (formerly Twitter)
Bill Nelson (@SenBillNelson) on X
Congratulations to @blueorigin on the first successful test flight of New Glenn.
Together and in the spirit of John Glenn, NASA and our commercial partners are pushing the boundaries of exploration and reaching new heights—to the Moon, Mars, and beyond!
Together and in the spirit of John Glenn, NASA and our commercial partners are pushing the boundaries of exploration and reaching new heights—to the Moon, Mars, and beyond!
2024年发生了太多对一般人来说不需要怎么思考就能提高认知水平的事情,以至于到2025年再看到有赢麻了自媒体的复读机那我只能认为是在装睡了,叫不醒的那种。。。
👍34
David's random thoughts
NS2平台的隐忧:CPU性能 NS2作为一个游戏主机平台,大概率会因为CPU追求determinism导致必须按照最坏的情况规划功耗分配和对应的频率。不同模式下CPU的性能差距也不宜过大,掌机模式的功耗限制会拖累底座模式的CPU性能潜力。 6-8核心如果只能跑在1GHz下,会导致其CPU综合性能不如2GHz的SteamDeck。 备注:Steam Deck单核心测试的最低点为1GHz,拐点是2 GHz,多核心测试最低点是1.7 GHz;Orin最低点均为1GHz。
每次出新的游戏主机硬件都会在社交网络上引发TFLOPS大战,NS2也不能逃脱。
还是简单讲下我的估算:Ampere同频比RDNA2强大约20%,二者在1.6GHz以下性能随频率的变化都相对比较线性。粗略计算12SM的Ampere大约需要0.9GHz达到Steam Deck满功耗的性能,而传说NS2掌机模式560MHz GPU则相当于SD 1GHz左右。
还是简单讲下我的估算:Ampere同频比RDNA2强大约20%,二者在1.6GHz以下性能随频率的变化都相对比较线性。粗略计算12SM的Ampere大约需要0.9GHz达到Steam Deck满功耗的性能,而传说NS2掌机模式560MHz GPU则相当于SD 1GHz左右。
🤔15😁4