David's random thoughts – Telegram
David's random thoughts
1.73K subscribers
271 photos
1 video
29 files
174 links
个人想法合集,主要同步来自Twitter (𝕏)、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
🙃NPU 1W左右功耗,50 TOPS int8 + 50GB/s带宽,被宣传的感觉价值至少得有个3000块了。。

明天试试看移植个模型会不会比之前用7840U顺利点。
为什么我迟迟没有放出性能测试……

What can I say.gif
🤣8😁6👀1
另外关于NPU,从samples拿了个llama.cpp,prompt processing / text generation 的功耗大概是图里这样。

7B q4_0的实际性能:prompt processing大约20 token/s和火力全开的28W 4+8 CPU差不多,text generation大约6 token/s是2CCX CPU的一半(NPU内存带宽也相当于单个CCX)

跑LLM只能说聊胜于无吧。
失算了,Zen 5并没有什么L0 BTB,那个1024分支的低延迟区域应该是op cache导致的。

使用wrmsr -a 0xc0011021 0x20000000000060关闭op cache之后可以得到一条几乎平整的直线,所以Zen 5就是16K的初级零延迟BTB。

AMD的architect看到我那篇文章估计内心都想笑了:《我怎么不知道我还设计了个L0 BTB🤣
7
至于为什么等效延迟是1而不是0.5,这是我目前遇到的一个主要问题。

目前版本的微码似乎单个线程是无论如何都看不到两个解码器的,也就是出了op$或者关掉op$之后前端直接就变成4-wide并且只能每周期1 taken了(无论带不带分支跳转)。这个显然跟AMD宣传的单线程可以用两个decoder不符,需要更多调查。
服了华硕,新机器发出来不给驱动下载,于是我wipe掉自带的预装系统弄了个24H2 LTSC之后就有个谜之ACPI设备感叹号在这儿……

我在犹豫要不要去UEFI菜单里联网恢复自带系统,就为了捞这一个驱动出来!
🤣17🌚1
果然不出所料的看到知乎上有人分析地洋洋洒洒,讲Intel是个好公司,它越来越不行本质上是美国不行了。

嗯,我觉得他说的全都对,因为抢走Intel营收的NVIDIA是印度公司,AMD是越南公司,Apple是朝鲜公司。先进半导体行业早就没美国什么事了,散了散了。
😁31🤣20🤡3
LNL本身整体综合看表现还是不错的,但是唯独定低价这一点完全不可能……全身上下都在打金币弹的金贵玩意

https://x.com/cherylnatsu/status/1820032097253490968
😁12🤔1
更新Ryzen AI 9 HX 370 (名字真难念)的大/小核心测试成绩。大核能摸到M2附近,小核是8cx gen 3的大核水平,正好这两组对比的缓存容量接近,不过ARM两家有一些SLC

目前测的内容感觉凑不齐一篇文章,后面等桌面出了再慢慢凑吧…其实PMC比较让人意外,还需要一些时间来分析。
👍4
另外我真的已经非常尽力地在给它做散热了,然而它还是跑不满5.15GHz的频率,后端压力大的perlbench和exchange2会掉到5GHz附近……将就着看吧。后续如果有机会玩到散热更强的机型再更新。

这方面不得不说Intel要容易的多,频率基本上稳定得雷打不动,连续测3轮SPEC能跑出一模一样成绩
HX370不同环境下的Geekbench 5/6测试也更新在了我的Geekbench Browser个人资料页面:https://browser.geekbench.com/user/391511
当我跑了好几天脚本把Strix Point大小核的高负载能效曲线分别画出来之后,我只能说我从未见过比Zen5c更纯粹的刷分小核。2GHz以上完全找不到任何同频下有能效优势的场景,哪怕排除一切缓存敏感的子项。

想了想可能只有CC0状态下的漏电功耗有优势,拿来断断续续地跑点轻度后台应用?
🤣15🤡4👍1
今天在群里薅了一张图,感觉其实挺应景的(文章慢慢填坑中
🤣20😁1
前些年反智战狼自媒体还说星链是太空垃圾抢占轨道,结果轮到自家发的时候真变成太空垃圾占轨道了😅
据说8月六号发射的长征六号甲火箭发生末端解体,真的假的?
😁20🤯2🤣1