David's random thoughts – Telegram
David's random thoughts
1.73K subscribers
268 photos
1 video
29 files
173 links
个人想法合集,主要同步来自Twitter (𝕏)、知乎、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
David's random thoughts
2017年以来的每一年都是WoA元年,今后的每一年也将继续是🙃 https://x.com/tomshardware/status/1903489920632791148
在PC这种夕阳市场拿到份额有多不容易看隔壁AMD移动端有多难就知道

靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前

为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
👍371
为什么前段时间说老美航天就算没马斯克也是断档领先。。图里这些火神芯级如果都拿去做VC4/6构型,那么每发都相当于长5运力。这个爆产能的能力恐怖如斯,国内见过这么多长5同框吗

不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣

https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
😁17🤣5🔥2
🙃 铺天盖地的营销最后不还是连个AEB都做不明白
😁33🤣3👎1
9070XT当前运行llama.cpp的性能/效率如图(开启FA并且使用q8_0的kvcache量化)

ROCm尚未正式支持RDNA4,需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改

可以看到虽然整体效率比起RDNA3已经有明显改进,但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想,此处需要高情商:未来可期
👍16😁3
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
😁24
David's random thoughts
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
好吧,看了一圈llama4的风评,我已经开始心疼月初就用了将近1TB的流量下载这货把整个月的vps流量都快用完了……
😁27😢5💔1
HP这台是我多年来买过的首发笔记本新平台机器里对Linux支持最好的,没有之一。不过都已经拿去做Ubuntu认证了也不意外。。

LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码,理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。
26🔥2
Strix Halo的SMU地址跟Strix Point一模一样,pm table因为供电多了一个rail所以看起来有一点小变化。感觉是送分题(
简单测试Strix Halo (395)单线程SPECint2017的CPU核心与Package能效。

核心方面395比HX370强不少。同样5.1GHz频率下,370峰值电压高达1.45V,而395只有大约1.13V。

Package则没那么乐观,两倍位宽也带来了两倍低频功耗。当然这是插电测试,拔电单线程负载uncore会降频所以实际续航没有减半这么极端。
11😁1
一个标榜隐私为卖点的产品内置LLM功能时居然不提供自定义API endpoint选项,不知道pm脑子里在想什么。连被自由软件界一部分人骂的狗血淋头的MS vscode现在都支持本地ollama了。

还是说,这些产品出现在列表里,也像默认搜索引擎一样是个交易?在我看来不管是哪种情况他们都已经彻底背离了初衷。
😁25💩3👍1
之前尝试拿B580在linux下亮机和玩一些小游戏,遭遇了无数次显卡从总线上直接消失以及proton游戏渲染错误,最后不得不又把卡换回去……这都发售小半年了还在调查

https://www.phoronix.com/news/Intel-Xe-Linux-6.16-Fan-Speeds
😁111
难得见识一次现代Xeon的缓存/内存延迟数据(Xeon 6960P @ 3.8 GHz)

这60ns+的L3缓存延迟大概比很多PC DIY用户超频后的内存延迟都高了
🤯8😁1
随手摸下B200 (148SM)。Vector性能相比H100的提升比较常规(+25%)。全局原子CAS延迟是H100的2x,达到200ns,这大概就是MCM的代价。

有意思的点在于wmma发生明显倒退,每SM性能回到了图形卡水平。本代大概只有tcgen05.mma可以跑出纸面tensor吞吐,这标志着计算卡重心逐渐转向类似NPU的TMEM?
🤯13