David's random thoughts – Telegram
David's random thoughts
1.75K subscribers
273 photos
1 video
31 files
175 links
个人想法合集,主要同步来自Twitter (𝕏)、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
SPECint2017-ARM.png
137.2 KB
ARM Cortex-X3 (2023)相比X1 (2021)的“巨大”IPC进步:同样1MB L2+8MB L3+6MB SLC,在SPECINT测试中,X3在TSMC N4工艺加持、频率提升了12%的情况下性能提升19.9%,折算下来每时钟性能提升幅度达到了惊人的……7%。A715的perf/clock更是提升高达-14.8%

ARM的性能提升幅度,早已到达x86无法触及的境界!
🔥5
用了几天fold5倒是感觉相当好评。基本上解决了之前用的fold2的所有大小毛病。新SoC相比fold2的865和S22u的8g1使用体验提升巨大。日常操作冰凉,彻底摆脱续航焦虑,轻松8小时亮屏。

至于这个巨大的体验提升到底是来源于ARM微架构的提升还是高通用三星foundry走“弯路”后重回正轨带来的,就不好说了。😂
❤‍🔥2🔥1
昨天晚上发现之前测的A78分数还测残了(memory pstates没有带起来),今天晚上测个满血的继续鞭尸A715。
❤‍🔥3
🙃 昨天还在担心刚买不久的新手机会不会用了几天就退环境,看起来不用担心了
Windows的调度器之谜

上次说到Windows 10/11目前在Intel平台电源计划默认的SchedPolicy/ShortSchedPolicy (Automatic) 宛如智障,其实在AMD平台它也是智障的状态。

目前版本的Windows 10/11在开启SMT的情况下,默认电源计划并不能保证严格优先用完所有核心的第一个线程。比如7950X3D运行16线程的Cinebench会导致CCD1有两个核心的第二个线程有占用,而CCD0的每个线程占用都会整体偏低。

解决方法依然是手调SchedPolicy/ShortSchedPolicy,不过AMD平台目前没有大小核所以是把二者都设置成0 (All processors)。我在我自己用的机器上实测默认配置运行16线程Cinebench R23只有24000分左右,这个数值低于BIOS关闭SMT的性能。而修改SchedPolicy后则可以轻松跑到26500+,与关闭SMT的性能几乎一致。

一般跑分只跑全核所以看不出来这个问题,但是跑multimedia应用经常能遇到并行不佳的“多核但不全核”或者开SMT反而会性能下降的情况,只能说Windows的调度器真的是烂完了……
9
前段时间做定频测试的一些副产物,Golden Cove和Zen4的SMT性能测试。

还是比较有趣的,性能和功耗方面的特性有一些小区别。
5
星穹铁道的自动战斗做的蠢到恰到好处,以至于我不知道他们是写不出更好的算法还是为了故意做的很蠢以削弱玩家的数值优势。。
看了一圈A17评测,感觉数码产品圈子差不多也该接受各家CPU性能CAGR只有10%左右的现实,不要动不动开口就说什么菜、烂、翻车,显得戾气那么重了……
❤‍🔥7👍5🤔1
台积电官方PPT数据,N4相比N5提升5%性能,N3相比N5提升10%。折算下来N3相比N4纯粹的性能提升不超过5%,也就是A17相比A16的这个表现可以说是完全符合TSMC的PPT。

搞笑的是居然有人说他唱衰N3好多年(节点名字还写错了)。。PPT上就这点水平,还用得着他唱衰吗🤣
🤡12👏3🤣2
新iPhone发售之后,对A17 Pro只能给个喜忧参半的评价

CPU两个P核总面积跟高通一个X核差不多,说一句PPA全方位遥遥领先也不过分。不过圈子里不止一人反馈日常发热比前代严重,至少目前没调校好。

另一方面,新GPU在占了将近20mm²,以及坐享24M SLC的情况下能效居然远不如6M SLC的Adreno,有点丢人了。
5
Valve: 给proton/dxvk做shader pre-caching解决第三方优化不佳的游戏出现shader编译卡顿

Also Valve: 2023年发布CS 2,一进游戏就是满脸的shader编译卡顿🙃
😁8🔥31👍1
2022年之后大部分笔记本soc化,然后2023年树莓派做了个南桥😡
😁10🤩2
MSDT DDR5平台上4条内存总共128GB:同时感受DDR4级别的带宽,DDR4级别的容量和DDR5级别的延迟
为什么 AMD 放弃了 APU 产品线?

Client做了6年HSA APU都没有什么实际的场景能很好地应用zero-copy、cache coherency等APU专属的功能,但这些功能的开发与验证却需要在独显与CPU以外投入相当多的资源。顺应实际需求图简单做成“集成独显”是正确的选择。

但是HPC领域的软硬件产品依然在沿用HSA的老底子,从MI250X开始就可以把CPU端的指针扔给GPU直接读取数据(CPU、GPU为非对称的NUMA节点,Grace Hopper也是类似),MI300A更是把CPU/GPU做成了真正的UMA。

这才是真正符合APU最初构想的应用场景,而不是做给桌面端买前生产力,买后打游戏。

https://www.zhihu.com/question/624630242/answer/3251458427
👍14