David's random thoughts – Telegram
David's random thoughts
1.76K subscribers
273 photos
1 video
31 files
175 links
个人想法合集,主要同步来自Twitter (𝕏)、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
😂GPU ISA支持6种类型的矩阵加速,但是驱动暂时只实现其中一种
顺便吐槽下AMD的Vulkan驱动,似乎各种函数入口处都不会validate参数,给无效的参数永远是直接爆炸在函数里面而不是优雅地返回一个错误代码……

推荐RIIR🙃
😁2
大意了,仔细一看才发现VK_KHR_cooperative_matrix跟VK_NV_cooperative_matrix的细节区别还不小……得稍微改改shader🙃
ThinkPad Z系列为什么销量惨淡?

圈子里还真有不少Z13用户,数了一下至少有5-6个了。不过其中不少比例的机器多少都有一些大病:

· 其中一位买回去发现浏览器看视频花屏故障,返修换主板后依然如此;
· 还有一位因为各种不同的问题已经返修两次更换主板,最近因为USB接口出问题,正在计划返修第三次;
· 有3位用户依然在非常满意地正常使用。

联想应该庆幸这机器销量惨淡,不然大概是ThinkPad售后先受不了吧?

https://www.zhihu.com/question/611022228/answer/3111245863
这些年感觉一些公司的一些团队已经从内部彻底烂掉了但是大部分人(不论内外)可能还没意识到

这些团队往往曾经拥有光辉的历史并且坐拥一个非常坚实的基本盘,不少成员甚至会因为自己在维护这样一个屎山而感到非常自豪。然而这些团队一旦开始做点什么新东西就会立马暴露草台程度

各行各业都有,不点名
Gamers Nexus去处理器厂商的lab拍一期节目,能让某些PC DIY新闻网站把里面的内容挑出来水一万篇文章,一次写一点。。。
😁1😢1🤡1
自动化测试是好文明,放着跑一晚上一条曲线的数据就出来了,省心省力。

图中暂时只有13900K是在纯净Linux下自动跑出来的数据,其它曲线是Windows+WSL2+hwinfo记录(因此可能会有额外的noise)。有空会刷新一下数据。
New Outlook 不联网不让用……什么神仙设计?
1
私底下聊天发现很多人对Intel ARL的这个性能预期感到失望。其实没什么好失望的,提升幅度很正常。

从ADL到ARL,如果按照最早的计划完全不delay,那么平均下来每年性能提升15%左右,隔壁从Zen+到Zen4也就年均提升15%。就算延期一年(现状)也是9.4%,行业正常水平(接近ARM)

https://www.igorslab.de/en/intels-internal-performance-projection-for-raptor-lake-s-refresh-and-arrow-lake-s/
Intel这AVX10,就是简单把AVX512VL的CPUID重新组织了一下,ISA完全没变啊…科技以改名为本?

倒是APX对ISA的改动比较有趣。虽然x86微架构的栈操作消除做的比较好,不过向RISC ISA看齐总归不是坏事,毕竟额外的load/store吃指令缓存,做相关的分析吃晶体管和功耗…对绝对性能的影响大概不会很明显吧。
AVX10最让我感到费解的是小核只支持AVX10-256,相当于说支持AVX512VL-256但是不支持AVX512F。

现在小核只给VEX前缀的AVX/AVX2,不给AVX512F还能理解。但未来做AVX10要解码EVEX指令,既然都支持EVEX了为什么不顺便支持同样编码格式的512呢?小核跑256要拆两个op或者用两个周期执行,512无非是拆成4个。
🙃 想写一个fs filter driver把 %USERPROFILE%\.xxxx 全部redirect到 %APPDATA%\Xxxx
👍11
能效核?

从我这两天对13700H的测试来看,Intel 13代H45的E-core相比P-core在单核整数负载场景下无论是什么频率都不能对能效产生任何有意义的提升。因此其实Raptor Cove应该被称作“性能能效核”,Gracemont应该被称作……跑分核。

图中P-core从5GHz一路测到800MHz,E-core从3.7GHz测到1.2GHz,曲线只有在最低的几个点有些许重叠。即便是在最低的几个点,E-core的能效相比P-core也没有明显的优势。

这与我前些时测试13900K的结论不同,13900K的P-core在2.0GHz以下的频率,同性能的能效会被E-core反超(虽然只超了一点点)。可能是因为13900K的E-core有4MB的L2缓存,而13700H只有2MB导致了这一区别。

并且观察从原点出发到曲线的切线,可以发现13700H能效sweet spot是P-core 5分左右。此时package功耗约为7.6W。再往下降低性能,系统整体能效反而会因为基础功耗较高而下降。因此为了让E-core发挥能效优势强行降低性能反而有悖于初衷。

真正的能效核,可能还是得等LNL-M吧。
🤡6🤯5👍2🤔21