David's random thoughts – Telegram
David's random thoughts
1.73K subscribers
268 photos
1 video
29 files
173 links
个人想法合集,主要同步来自Twitter (𝕏)、知乎、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
M4 Pro的单线程带宽,以及对比x86。与延迟测试不同的是,在带宽测试里我们很容易看出单个核心可以全速访问两个P cluster所有32M L2缓存,带宽基本维持在120 GB/s附近。

除此之外也比较容易发现Apple相比x86目前大优势在于128bit SIMD吞吐。Zen5需要256/512bit SIMD才能使得每级缓存发挥出全部实力。
最后是多核心,本代M4 Pro使用单cluster 5核心纯读取可以跑出220+ GB/s内存带宽,不再有M1年代单cluster带宽限制。这可能是P cluster现在不仅可以使用另一个P cluster的缓存,也可以通过另一个P cluster的data path来读写内存

3个小核内存带宽大约是44 GB/s (单核32GB/s),cluster级别瓶颈比较明显
因此今天的8700G、5600G以及笔记本AI 9 HX370、8845H这些,其实都不能叫APU——一来它们的GPU在闲置时起码也要分走512MB(早一点2200G好像可以只占64MB)的系统内存;二来它们的GPU最大也只能访问到一半的系统内存,不能全部


Linux + ROCm环境下APU的GPU可以访问全部内存空间,不需要预先分配显存,也没有一半内存容量的限制(因为不走GTT而是走Linux HMM框架分配内存的UMA)

比如我拿32G内存、预留512M显存的HX 370来跑32B 4bit模型,单模型本身就占用了超过16G内存,但是依然可以被GPU访问到并且跑出符合预期的推理性能。

https://www.zhihu.com/question/4693494927/answer/38232206295
🙃 Linux 6.12好不容易等来一堆期待已久的功能和fix,结果发现smb cifs又被搞炸了
😁28🤡4
USB4兼容性现状:以下4台机器任选两台出来组合,均无法使用USB4/雷电以太网

台式机Intel JHL8540独立主控
Mac Mini M4 Pro 雷电5
AMD Rembrandt (7735U)的原生USB4 (Linux)
AMD Strix Point (HX 370)的原生USB4 (Windows)
😇26🤡4
悲报:M4 Pro的HEVC编码器画质相比M1 Max几乎没有任何变化😅
🤣331👍1
llama.cpp的server终于引入了speculative decode,现在我日常用的qwen 72B q8性能达到了>20 token/s😃

https://github.com/ggerganov/llama.cpp/commit/9ca2e677626fce759d5d95c407c03677b9c87a26

配置参考: llama-server -dev ROCm0,ROCm1 -devd ROCm2 -t 24 -c 65536 -cd 65536 -m qwen2.5-72b-q8.gguf -md qwen2.5-1.5b-q4.gguf -ngld 999 -ngl 999 -np 4 -sm row -ts 1,1 -cb -ctk q8_0 -ctv q8_0 -fa --draft-max 4 --draft-min 1 --draft-p-min 0 --samplers "temperature;top_k;top_p" --temp 0.1 --host 0.0.0.0 --port 8000
👏8👍4
Qwen-QwQ用speculative decode的效果奇好,单卡q8随便跑40 token/s
David's random thoughts
Qwen-QwQ用speculative decode的效果奇好,单卡q8随便跑40 token/s
RTX 6000 Ada可以把speculation decode的window开的比较大,单卡跑出90t/s
🤯14🔥3
话说上个月就看到skydio这事,没想到的是沉寂了这么久突然这两天又被知乎一群赢学家翻出来……这年头找个赢学话题都这么难了要靠翻旧账了是吧

https://www.zhihu.com/question/5317782004/answer/43707008414
😁15
我们Linux也要有自己的任务管理器显示NPU?(虽然啥都看不到

https://x.com/phoronix/status/1862829238161699185
能把UI做的如此逆天也是要一定水平的
😁341
3分钟就能写完的代码折腾了大半个月还没进去,这样的公司怎么能造出伟大的产品呢🙃
13🥰4😱32
想起来之前Strix Point测试文章里这个表,可以更新32M L3 + DDR的数字了
一个还不够了
😁14🤣8
关于Pat为什么离开Intel,这一篇跟我的看法比较接近:https://www.zhihu.com/question/5766243909/answer/46339548233

有些人喜欢污名化职业经理人,但Intel三次严重走弯路全是技术背景CEO带领下公司经营或投资方向出现重大失误,是个反例。

另外今天很多《分析师》认为Pat领导下Intel技术方面没大问题也是半吊子,对Intel现状没基本认知。
👍13🤔5👏2
接下来一段时间比较感兴趣的硬件

- Intel B580单槽卡,如果有AIB愿意做(或者专业卡?)
- 旗舰Navi48游戏卡
- Strix Halo(优先mini pc,实在没有就笔记本)

2027年之前感觉就这点东西了🙃
👍161
最近Debian和Linux就是在反复以各种不同姿势炸我的smb client,从kernel cifs炸到kio,反正就是一个apt update下去就是一会这个爆炸一会那个停摆的!
5
另外最近贴吧上看起来又出现了一些脑袋不太灵光的人造谣说我偏向于AMD。我想他们大概是没怎么学过小学英语,无法理解我平时遇到AMD产品出问题是以一种怎样的语气在吐槽😆
👏15😁5