M4 Pro的SPEC多核,核心功耗从25W到60W不等,package功耗不明。图1/2两个报告是纯大核的10线程和大小核14线程,分别略低于55W/88W package功耗的9950X。
比较亮眼的子项有gcc和mcf,这两项和内存带宽强相关所以AM5自然性能是一坨;比较差的子项有perlbench和xz以及古典AI三项,其中有几个比较喜欢SMT
比较亮眼的子项有gcc和mcf,这两项和内存带宽强相关所以AM5自然性能是一坨;比较差的子项有perlbench和xz以及古典AI三项,其中有几个比较喜欢SMT
❤3
David's random thoughts
M4 Pro的SPEC多核,核心功耗从25W到60W不等,package功耗不明。图1/2两个报告是纯大核的10线程和大小核14线程,分别略低于55W/88W package功耗的9950X。 比较亮眼的子项有gcc和mcf,这两项和内存带宽强相关所以AM5自然性能是一坨;比较差的子项有perlbench和xz以及古典AI三项,其中有几个比较喜欢SMT
Telegram
David's random thoughts
跑了一个全核reportable的成绩,265K跑满全核5.2/4.6 GHz在548之类的子项最高需要200W左右的package功耗,其它会略低一些。
分数方面,则约等于88W的7950X/9950X或者125W的13900K。
分数方面,则约等于88W的7950X/9950X或者125W的13900K。
🐳6
图1: Linux vs macOS 默认malloc
图2: Linux vs macOS 统一jemalloc
均为手动拉满风扇。统一malloc必要性还是很大的,Linux在纯核心瓶颈的场景下表现略好,但是macOS libmalloc帮大忙让520 523绝杀。这个现象在M2上还不够明显,但是M3之后为了拉高频率大幅度放松L2时序,可能使得malloc的重要性增加。
图2: Linux vs macOS 统一jemalloc
均为手动拉满风扇。统一malloc必要性还是很大的,Linux在纯核心瓶颈的场景下表现略好,但是macOS libmalloc帮大忙让520 523绝杀。这个现象在M2上还不够明显,但是M3之后为了拉高频率大幅度放松L2时序,可能使得malloc的重要性增加。
👍11🤔1
David's random thoughts
图1: Linux vs macOS 默认malloc 图2: Linux vs macOS 统一jemalloc 均为手动拉满风扇。统一malloc必要性还是很大的,Linux在纯核心瓶颈的场景下表现略好,但是macOS libmalloc帮大忙让520 523绝杀。这个现象在M2上还不够明显,但是M3之后为了拉高频率大幅度放松L2时序,可能使得malloc的重要性增加。
补充一个Linux默认glibc malloc+更换16K page内核的成绩,520/523有一些提升,不过跟macOS还是差得远。
Linux下nvidia和amdgpu有criu支持,不过我好像还没见过谁把它用在游戏图形应用上
https://www.zhihu.com/question/456048017/answer/34367726593
https://www.zhihu.com/question/456048017/answer/34367726593
❤2
M4 Pro E-core @ 2592 MHz,uncore拉满的情况下SPEC17 int性能可以来到5.17分。如果不动uncore则是4.42分(从omnetpp的成绩来看目前榜上那个M3 Pro的E-core应该也是没有拉高uncore的)
这一代的E核频率略下降(2.6 vs 2.75 GHz),IPC略提升,最终性能与M3 Pro的E-core接近。
感觉不如Skymont(逃
Geekbench 5/6分数也更新了:https://browser.geekbench.com/user/391511
这一代的E核频率略下降(2.6 vs 2.75 GHz),IPC略提升,最终性能与M3 Pro的E-core接近。
感觉不如Skymont(逃
Geekbench 5/6分数也更新了:https://browser.geekbench.com/user/391511
❤2
因此今天的8700G、5600G以及笔记本AI 9 HX370、8845H这些,其实都不能叫APU——一来它们的GPU在闲置时起码也要分走512MB(早一点2200G好像可以只占64MB)的系统内存;二来它们的GPU最大也只能访问到一半的系统内存,不能全部
Linux + ROCm环境下APU的GPU可以访问全部内存空间,不需要预先分配显存,也没有一半内存容量的限制(因为不走GTT而是走Linux HMM框架分配内存的UMA)
比如我拿32G内存、预留512M显存的HX 370来跑32B 4bit模型,单模型本身就占用了超过16G内存,但是依然可以被GPU访问到并且跑出符合预期的推理性能。
https://www.zhihu.com/question/4693494927/answer/38232206295
USB4兼容性现状:以下4台机器任选两台出来组合,均无法使用USB4/雷电以太网
台式机Intel JHL8540独立主控
Mac Mini M4 Pro 雷电5
AMD Rembrandt (7735U)的原生USB4 (Linux)
AMD Strix Point (HX 370)的原生USB4 (Windows)
台式机Intel JHL8540独立主控
Mac Mini M4 Pro 雷电5
AMD Rembrandt (7735U)的原生USB4 (Linux)
AMD Strix Point (HX 370)的原生USB4 (Windows)
😇26🤡4
llama.cpp的server终于引入了speculative decode,现在我日常用的qwen 72B q8性能达到了>20 token/s😃
https://github.com/ggerganov/llama.cpp/commit/9ca2e677626fce759d5d95c407c03677b9c87a26
配置参考: llama-server -dev ROCm0,ROCm1 -devd ROCm2 -t 24 -c 65536 -cd 65536 -m qwen2.5-72b-q8.gguf -md qwen2.5-1.5b-q4.gguf -ngld 999 -ngl 999 -np 4 -sm row -ts 1,1 -cb -ctk q8_0 -ctv q8_0 -fa --draft-max 4 --draft-min 1 --draft-p-min 0 --samplers "temperature;top_k;top_p" --temp 0.1 --host 0.0.0.0 --port 8000
https://github.com/ggerganov/llama.cpp/commit/9ca2e677626fce759d5d95c407c03677b9c87a26
配置参考: llama-server -dev ROCm0,ROCm1 -devd ROCm2 -t 24 -c 65536 -cd 65536 -m qwen2.5-72b-q8.gguf -md qwen2.5-1.5b-q4.gguf -ngld 999 -ngl 999 -np 4 -sm row -ts 1,1 -cb -ctk q8_0 -ctv q8_0 -fa --draft-max 4 --draft-min 1 --draft-p-min 0 --samplers "temperature;top_k;top_p" --temp 0.1 --host 0.0.0.0 --port 8000
GitHub
server : add speculative decoding support (#10455) · ggerganov/llama.cpp@9ca2e67
* server : add speculative decoding support
ggml-ci
* server : add helper function slot.can_speculate()
ggml-ci
ggml-ci
* server : add helper function slot.can_speculate()
ggml-ci
👏8👍4
David's random thoughts
Qwen-QwQ用speculative decode的效果奇好,单卡q8随便跑40 token/s
RTX 6000 Ada可以把speculation decode的window开的比较大,单卡跑出90t/s
🤯14🔥3