Windows的调度器之谜
上次说到Windows 10/11目前在Intel平台电源计划默认的SchedPolicy/ShortSchedPolicy (Automatic) 宛如智障,其实在AMD平台它也是智障的状态。
目前版本的Windows 10/11在开启SMT的情况下,默认电源计划并不能保证严格优先用完所有核心的第一个线程。比如7950X3D运行16线程的Cinebench会导致CCD1有两个核心的第二个线程有占用,而CCD0的每个线程占用都会整体偏低。
解决方法依然是手调SchedPolicy/ShortSchedPolicy,不过AMD平台目前没有大小核所以是把二者都设置成0 (All processors)。我在我自己用的机器上实测默认配置运行16线程Cinebench R23只有24000分左右,这个数值低于BIOS关闭SMT的性能。而修改SchedPolicy后则可以轻松跑到26500+,与关闭SMT的性能几乎一致。
一般跑分只跑全核所以看不出来这个问题,但是跑multimedia应用经常能遇到并行不佳的“多核但不全核”或者开SMT反而会性能下降的情况,只能说Windows的调度器真的是烂完了……
上次说到Windows 10/11目前在Intel平台电源计划默认的SchedPolicy/ShortSchedPolicy (Automatic) 宛如智障,其实在AMD平台它也是智障的状态。
目前版本的Windows 10/11在开启SMT的情况下,默认电源计划并不能保证严格优先用完所有核心的第一个线程。比如7950X3D运行16线程的Cinebench会导致CCD1有两个核心的第二个线程有占用,而CCD0的每个线程占用都会整体偏低。
解决方法依然是手调SchedPolicy/ShortSchedPolicy,不过AMD平台目前没有大小核所以是把二者都设置成0 (All processors)。我在我自己用的机器上实测默认配置运行16线程Cinebench R23只有24000分左右,这个数值低于BIOS关闭SMT的性能。而修改SchedPolicy后则可以轻松跑到26500+,与关闭SMT的性能几乎一致。
一般跑分只跑全核所以看不出来这个问题,但是跑multimedia应用经常能遇到并行不佳的“多核但不全核”或者开SMT反而会性能下降的情况,只能说Windows的调度器真的是烂完了……
❤9
前段时间做定频测试的一些副产物,Golden Cove和Zen4的SMT性能测试。
还是比较有趣的,性能和功耗方面的特性有一些小区别。
还是比较有趣的,性能和功耗方面的特性有一些小区别。
❤5
星穹铁道的自动战斗做的蠢到恰到好处,以至于我不知道他们是写不出更好的算法还是为了故意做的很蠢以削弱玩家的数值优势。。
看了一圈A17评测,感觉数码产品圈子差不多也该接受各家CPU性能CAGR只有10%左右的现实,不要动不动开口就说什么菜、烂、翻车,显得戾气那么重了……
❤🔥7👍5🤔1
台积电官方PPT数据,N4相比N5提升5%性能,N3相比N5提升10%。折算下来N3相比N4纯粹的性能提升不超过5%,也就是A17相比A16的这个表现可以说是完全符合TSMC的PPT。
搞笑的是居然有人说他唱衰N3好多年(节点名字还写错了)。。PPT上就这点水平,还用得着他唱衰吗🤣
搞笑的是居然有人说他唱衰N3好多年(节点名字还写错了)。。PPT上就这点水平,还用得着他唱衰吗🤣
🤡12👏3🤣2
新iPhone发售之后,对A17 Pro只能给个喜忧参半的评价
CPU两个P核总面积跟高通一个X核差不多,说一句PPA全方位遥遥领先也不过分。不过圈子里不止一人反馈日常发热比前代严重,至少目前没调校好。
另一方面,新GPU在占了将近20mm²,以及坐享24M SLC的情况下能效居然远不如6M SLC的Adreno,有点丢人了。
CPU两个P核总面积跟高通一个X核差不多,说一句PPA全方位遥遥领先也不过分。不过圈子里不止一人反馈日常发热比前代严重,至少目前没调校好。
另一方面,新GPU在占了将近20mm²,以及坐享24M SLC的情况下能效居然远不如6M SLC的Adreno,有点丢人了。
❤5
Valve: 给proton/dxvk做shader pre-caching解决第三方优化不佳的游戏出现shader编译卡顿
Also Valve: 2023年发布CS 2,一进游戏就是满脸的shader编译卡顿🙃
Also Valve: 2023年发布CS 2,一进游戏就是满脸的shader编译卡顿🙃
😁8🔥3❤1👍1
为什么 AMD 放弃了 APU 产品线?
Client做了6年HSA APU都没有什么实际的场景能很好地应用zero-copy、cache coherency等APU专属的功能,但这些功能的开发与验证却需要在独显与CPU以外投入相当多的资源。顺应实际需求图简单做成“集成独显”是正确的选择。
但是HPC领域的软硬件产品依然在沿用HSA的老底子,从MI250X开始就可以把CPU端的指针扔给GPU直接读取数据(CPU、GPU为非对称的NUMA节点,Grace Hopper也是类似),MI300A更是把CPU/GPU做成了真正的UMA。
这才是真正符合APU最初构想的应用场景,而不是做给桌面端买前生产力,买后打游戏。
https://www.zhihu.com/question/624630242/answer/3251458427
Client做了6年HSA APU都没有什么实际的场景能很好地应用zero-copy、cache coherency等APU专属的功能,但这些功能的开发与验证却需要在独显与CPU以外投入相当多的资源。顺应实际需求图简单做成“集成独显”是正确的选择。
但是HPC领域的软硬件产品依然在沿用HSA的老底子,从MI250X开始就可以把CPU端的指针扔给GPU直接读取数据(CPU、GPU为非对称的NUMA节点,Grace Hopper也是类似),MI300A更是把CPU/GPU做成了真正的UMA。
这才是真正符合APU最初构想的应用场景,而不是做给桌面端买前生产力,买后打游戏。
https://www.zhihu.com/question/624630242/answer/3251458427
👍14
AI PC?
生成式AI火了一年多了,然而微软至今没有主动为Windows用户开发哪怕一款纯本地运行的生成式AI应用。给Windows 11和Office做了那么多AI功能集成,仔细一看全都是接入Bing或者Office365推广自家线上服务和订阅。
与之同时,微软放着大量算力不俗、AI-capable的现成Windows软硬件,以及适合本地AI集成的应用场景不管,不提供纯本地部署运行的完整解决方案。不说AI,甚至连Excel加个python功能都是用发送到云端运行返回结果到本地的方式实现。卖云、卖订阅制服务早就已经深入骨髓,成为了微软的头号优先战略,任何其它事情都不可动摇。
就这状况居然会有人吹什么AI PC能掀起什么波澜,是真的没想明白还是心里清楚但是还是因为某些原因当装傻?且不说现在所谓的AI PC/NPU的算力、精度和编程模型能实现几个真正可用的本地生成式AI应用,连Windows生态里综合实力最强的微软自己都是本地AI的头号叛徒,我看各家蹭个AI热度还是差不多得了。
生成式AI火了一年多了,然而微软至今没有主动为Windows用户开发哪怕一款纯本地运行的生成式AI应用。给Windows 11和Office做了那么多AI功能集成,仔细一看全都是接入Bing或者Office365推广自家线上服务和订阅。
与之同时,微软放着大量算力不俗、AI-capable的现成Windows软硬件,以及适合本地AI集成的应用场景不管,不提供纯本地部署运行的完整解决方案。不说AI,甚至连Excel加个python功能都是用发送到云端运行返回结果到本地的方式实现。卖云、卖订阅制服务早就已经深入骨髓,成为了微软的头号优先战略,任何其它事情都不可动摇。
就这状况居然会有人吹什么AI PC能掀起什么波澜,是真的没想明白还是心里清楚但是还是因为某些原因当装傻?且不说现在所谓的AI PC/NPU的算力、精度和编程模型能实现几个真正可用的本地生成式AI应用,连Windows生态里综合实力最强的微软自己都是本地AI的头号叛徒,我看各家蹭个AI热度还是差不多得了。
👍15😁5❤1
2023年有两种室温超导材料,第一种存在于韩国人无法重现的实验,第二种存在于贴吧吧友们脑海中想象的Meteor Lake
Intel独创的超导供电,PCB、SoC供电平面完全由超导材料组成,使VID电压与晶体管电压完全相等,因此可以将RWC的晶体管电压直接与RPL的VID放在一张图里比较!
(全文阴阳怪气,别真信了)
Intel独创的超导供电,PCB、SoC供电平面完全由超导材料组成,使VID电压与晶体管电压完全相等,因此可以将RWC的晶体管电压直接与RPL的VID放在一张图里比较!
(全文阴阳怪气,别真信了)
🤡5
🔥8
我现在有一个想法:把所有设备上的Telegram客户端回滚并永久锁定在支持Telegram Premium之前的最后一个版本
👍5
Apple M3的CPU性能实在是没太多好说的,这点提升连挤牙膏都不算,如挤!
不过GPU微架构非常有看点,感觉CU的设计是主流图形GPU转入RISC SIMD以来最独特的一次改变,同时也解释了之前关于A17 GPU运行传统跑分的PPA为何如此平庸的疑惑。等什么时候有机会摸到硬件一定要写几个microbench好好品鉴一番……
不过GPU微架构非常有看点,感觉CU的设计是主流图形GPU转入RISC SIMD以来最独特的一次改变,同时也解释了之前关于A17 GPU运行传统跑分的PPA为何如此平庸的疑惑。等什么时候有机会摸到硬件一定要写几个microbench好好品鉴一番……
❤1