David's random thoughts – Telegram
David's random thoughts
1.75K subscribers
273 photos
1 video
31 files
175 links
个人想法合集,主要同步来自Twitter (𝕏)、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
为什么 AMD 放弃了 APU 产品线?

Client做了6年HSA APU都没有什么实际的场景能很好地应用zero-copy、cache coherency等APU专属的功能,但这些功能的开发与验证却需要在独显与CPU以外投入相当多的资源。顺应实际需求图简单做成“集成独显”是正确的选择。

但是HPC领域的软硬件产品依然在沿用HSA的老底子,从MI250X开始就可以把CPU端的指针扔给GPU直接读取数据(CPU、GPU为非对称的NUMA节点,Grace Hopper也是类似),MI300A更是把CPU/GPU做成了真正的UMA。

这才是真正符合APU最初构想的应用场景,而不是做给桌面端买前生产力,买后打游戏。

https://www.zhihu.com/question/624630242/answer/3251458427
👍14
太搞笑了,高通的显卡驱动安装程序居然不是原生ARM版本。。
🤡13
AI PC?

生成式AI火了一年多了,然而微软至今没有主动为Windows用户开发哪怕一款纯本地运行的生成式AI应用。给Windows 11和Office做了那么多AI功能集成,仔细一看全都是接入Bing或者Office365推广自家线上服务和订阅。

与之同时,微软放着大量算力不俗、AI-capable的现成Windows软硬件,以及适合本地AI集成的应用场景不管,不提供纯本地部署运行的完整解决方案。不说AI,甚至连Excel加个python功能都是用发送到云端运行返回结果到本地的方式实现。卖云、卖订阅制服务早就已经深入骨髓,成为了微软的头号优先战略,任何其它事情都不可动摇。

就这状况居然会有人吹什么AI PC能掀起什么波澜,是真的没想明白还是心里清楚但是还是因为某些原因当装傻?且不说现在所谓的AI PC/NPU的算力、精度和编程模型能实现几个真正可用的本地生成式AI应用,连Windows生态里综合实力最强的微软自己都是本地AI的头号叛徒,我看各家蹭个AI热度还是差不多得了。
👍15😁51
2023年有两种室温超导材料,第一种存在于韩国人无法重现的实验,第二种存在于贴吧吧友们脑海中想象的Meteor Lake

Intel独创的超导供电,PCB、SoC供电平面完全由超导材料组成,使VID电压与晶体管电压完全相等,因此可以将RWC的晶体管电压直接与RPL的VID放在一张图里比较!

(全文阴阳怪气,别真信了)
🤡5
病得不轻。。。不想提供解锁可以直接学华为,不用那么麻烦的。

https://twitter.com/lz__233/status/1722188490623094860
🔥8
我现在有一个想法:把所有设备上的Telegram客户端回滚并永久锁定在支持Telegram Premium之前的最后一个版本
👍5
Intel能不能把这狗屎一般的见鬼代码改一改,不要每次任何一个带了XeSS的游戏启动都往C盘根目录下面拉屎。。。

真是见鬼了,在一台既没有Intel CPU又没有Intel GPU,整机半个Intel芯片都没有的电脑上都能被Intel这样恶心到,牛啊!
👍7
Apple M3的CPU性能实在是没太多好说的,这点提升连挤牙膏都不算,如挤!

不过GPU微架构非常有看点,感觉CU的设计是主流图形GPU转入RISC SIMD以来最独特的一次改变,同时也解释了之前关于A17 GPU运行传统跑分的PPA为何如此平庸的疑惑。等什么时候有机会摸到硬件一定要写几个microbench好好品鉴一番……
1
AMD设计SEV居然有这么大一条漏网之鱼……malicious hypervisor能随意drop guest的dirty cache可太刺激了。

https://twitter.com/InstLatX64/status/1724656517993959614
🤯3👍1
早些时发现523.xalancbmk这个子项在x86平台非常的cache latency bound,而较大且低延迟的L2是M1/M2的一大特色,12-16M提供足够高的命中率又能维持比x86低得多的延迟。M1可以在这个子项里达到同频将近两倍于Zen3/4的性能可能就有一个主要原因在此。

不过前段时间经过观察发现M3 max的L2延迟以及延迟周期数都有显著增加,可能是为了做6核cluster以及同时拉高频率导致。那么523.xalancbmk的ipc掉的这么狠也不难理解了……

JamesAslan - M3Pro的败北:太阳底下没有新鲜事,即便是苹果也。。。。
👍1🔥1
更新了M3 Pro的成绩。4GHz的Avalanche还是挺猛的,直接登顶。
🔥4
醒醒,这是Linux!
MI300X:一个主要为了高精度HPC场景设计的平台,“恰好”在AI所需要的低精度矩阵计算这方面也非常有竞争力。于是它在现在这个市场环境下被AMD将错就错拿来当AI芯片营销,发布会后AMD喜提股价大涨10%。

https://www.zhihu.com/question/633725195/answer/3319382295
1
数框框时间到~
🤩9🔥1
David's random thoughts
数框框时间到~
😭 A770亮机卡计划失败了,进KDE wayland就花屏。只能暂时用7800XT先顶着,改天再研究Intel。
🥰6🌚4👏2
Threadripper 7000系列动任何跟OC有关的设置(PBO/任何主频/任何电压/内存频率和时序)都要熔断fuse并且永久丢失保修。AMD这是跟三星手机学的吗……

我就说怎么华硕这TRX50主板默认配置这么符合POR规范,原来是主板厂商BIOS自己也动不了任何东西,笑死。
🔥3💩2
TRX50是我过去两百年内见过的内存效能最高的平台。4通道DDR5-5200B JEDEC内存,理论带宽166G,实际跑出>150G的读取吞吐,效率超过90%

对比之前AM5的测试不难看出,两倍的内存通道和CCD 在同频下跑出了>2.2倍的内存带宽,根本不需要任何OC就能跑出AM5永远达不到的效率…只能说AM5的UMC完全是个笑话。
🔥8
多核感觉测了等于没测😅

502.gcc_r以及505.mcf_r这俩比较吃内存带宽的测试在AM5 Raphael上表现还是一如既往的烂
👍2