David's random thoughts – Telegram
David's random thoughts
1.76K subscribers
273 photos
1 video
31 files
175 links
个人想法合集,主要同步来自Twitter (𝕏)、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
自动化测试是好文明,放着跑一晚上一条曲线的数据就出来了,省心省力。

图中暂时只有13900K是在纯净Linux下自动跑出来的数据,其它曲线是Windows+WSL2+hwinfo记录(因此可能会有额外的noise)。有空会刷新一下数据。
New Outlook 不联网不让用……什么神仙设计?
1
私底下聊天发现很多人对Intel ARL的这个性能预期感到失望。其实没什么好失望的,提升幅度很正常。

从ADL到ARL,如果按照最早的计划完全不delay,那么平均下来每年性能提升15%左右,隔壁从Zen+到Zen4也就年均提升15%。就算延期一年(现状)也是9.4%,行业正常水平(接近ARM)

https://www.igorslab.de/en/intels-internal-performance-projection-for-raptor-lake-s-refresh-and-arrow-lake-s/
Intel这AVX10,就是简单把AVX512VL的CPUID重新组织了一下,ISA完全没变啊…科技以改名为本?

倒是APX对ISA的改动比较有趣。虽然x86微架构的栈操作消除做的比较好,不过向RISC ISA看齐总归不是坏事,毕竟额外的load/store吃指令缓存,做相关的分析吃晶体管和功耗…对绝对性能的影响大概不会很明显吧。
AVX10最让我感到费解的是小核只支持AVX10-256,相当于说支持AVX512VL-256但是不支持AVX512F。

现在小核只给VEX前缀的AVX/AVX2,不给AVX512F还能理解。但未来做AVX10要解码EVEX指令,既然都支持EVEX了为什么不顺便支持同样编码格式的512呢?小核跑256要拆两个op或者用两个周期执行,512无非是拆成4个。
🙃 想写一个fs filter driver把 %USERPROFILE%\.xxxx 全部redirect到 %APPDATA%\Xxxx
👍11
能效核?

从我这两天对13700H的测试来看,Intel 13代H45的E-core相比P-core在单核整数负载场景下无论是什么频率都不能对能效产生任何有意义的提升。因此其实Raptor Cove应该被称作“性能能效核”,Gracemont应该被称作……跑分核。

图中P-core从5GHz一路测到800MHz,E-core从3.7GHz测到1.2GHz,曲线只有在最低的几个点有些许重叠。即便是在最低的几个点,E-core的能效相比P-core也没有明显的优势。

这与我前些时测试13900K的结论不同,13900K的P-core在2.0GHz以下的频率,同性能的能效会被E-core反超(虽然只超了一点点)。可能是因为13900K的E-core有4MB的L2缓存,而13700H只有2MB导致了这一区别。

并且观察从原点出发到曲线的切线,可以发现13700H能效sweet spot是P-core 5分左右。此时package功耗约为7.6W。再往下降低性能,系统整体能效反而会因为基础功耗较高而下降。因此为了让E-core发挥能效优势强行降低性能反而有悖于初衷。

真正的能效核,可能还是得等LNL-M吧。
🤡6🤯5👍2🤔21
> the Python calculations run in the Microsoft Cloud, and your results are returned to the worksheet

???

https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439
SPECint2017-ARM.png
137.2 KB
ARM Cortex-X3 (2023)相比X1 (2021)的“巨大”IPC进步:同样1MB L2+8MB L3+6MB SLC,在SPECINT测试中,X3在TSMC N4工艺加持、频率提升了12%的情况下性能提升19.9%,折算下来每时钟性能提升幅度达到了惊人的……7%。A715的perf/clock更是提升高达-14.8%

ARM的性能提升幅度,早已到达x86无法触及的境界!
🔥5
用了几天fold5倒是感觉相当好评。基本上解决了之前用的fold2的所有大小毛病。新SoC相比fold2的865和S22u的8g1使用体验提升巨大。日常操作冰凉,彻底摆脱续航焦虑,轻松8小时亮屏。

至于这个巨大的体验提升到底是来源于ARM微架构的提升还是高通用三星foundry走“弯路”后重回正轨带来的,就不好说了。😂
❤‍🔥2🔥1