因此今天的8700G、5600G以及笔记本AI 9 HX370、8845H这些,其实都不能叫APU——一来它们的GPU在闲置时起码也要分走512MB(早一点2200G好像可以只占64MB)的系统内存;二来它们的GPU最大也只能访问到一半的系统内存,不能全部
Linux + ROCm环境下APU的GPU可以访问全部内存空间,不需要预先分配显存,也没有一半内存容量的限制(因为不走GTT而是走Linux HMM框架分配内存的UMA)
比如我拿32G内存、预留512M显存的HX 370来跑32B 4bit模型,单模型本身就占用了超过16G内存,但是依然可以被GPU访问到并且跑出符合预期的推理性能。
https://www.zhihu.com/question/4693494927/answer/38232206295
USB4兼容性现状:以下4台机器任选两台出来组合,均无法使用USB4/雷电以太网
台式机Intel JHL8540独立主控
Mac Mini M4 Pro 雷电5
AMD Rembrandt (7735U)的原生USB4 (Linux)
AMD Strix Point (HX 370)的原生USB4 (Windows)
台式机Intel JHL8540独立主控
Mac Mini M4 Pro 雷电5
AMD Rembrandt (7735U)的原生USB4 (Linux)
AMD Strix Point (HX 370)的原生USB4 (Windows)
😇26🤡4
llama.cpp的server终于引入了speculative decode,现在我日常用的qwen 72B q8性能达到了>20 token/s😃
https://github.com/ggerganov/llama.cpp/commit/9ca2e677626fce759d5d95c407c03677b9c87a26
配置参考: llama-server -dev ROCm0,ROCm1 -devd ROCm2 -t 24 -c 65536 -cd 65536 -m qwen2.5-72b-q8.gguf -md qwen2.5-1.5b-q4.gguf -ngld 999 -ngl 999 -np 4 -sm row -ts 1,1 -cb -ctk q8_0 -ctv q8_0 -fa --draft-max 4 --draft-min 1 --draft-p-min 0 --samplers "temperature;top_k;top_p" --temp 0.1 --host 0.0.0.0 --port 8000
https://github.com/ggerganov/llama.cpp/commit/9ca2e677626fce759d5d95c407c03677b9c87a26
配置参考: llama-server -dev ROCm0,ROCm1 -devd ROCm2 -t 24 -c 65536 -cd 65536 -m qwen2.5-72b-q8.gguf -md qwen2.5-1.5b-q4.gguf -ngld 999 -ngl 999 -np 4 -sm row -ts 1,1 -cb -ctk q8_0 -ctv q8_0 -fa --draft-max 4 --draft-min 1 --draft-p-min 0 --samplers "temperature;top_k;top_p" --temp 0.1 --host 0.0.0.0 --port 8000
GitHub
server : add speculative decoding support (#10455) · ggerganov/llama.cpp@9ca2e67
* server : add speculative decoding support
ggml-ci
* server : add helper function slot.can_speculate()
ggml-ci
ggml-ci
* server : add helper function slot.can_speculate()
ggml-ci
👏8👍4
David's random thoughts
Qwen-QwQ用speculative decode的效果奇好,单卡q8随便跑40 token/s
RTX 6000 Ada可以把speculation decode的window开的比较大,单卡跑出90t/s
🤯14🔥3
话说上个月就看到skydio这事,没想到的是沉寂了这么久突然这两天又被知乎一群赢学家翻出来……这年头找个赢学话题都这么难了要靠翻旧账了是吧
https://www.zhihu.com/question/5317782004/answer/43707008414
https://www.zhihu.com/question/5317782004/answer/43707008414
😁15
关于Pat为什么离开Intel,这一篇跟我的看法比较接近:https://www.zhihu.com/question/5766243909/answer/46339548233
有些人喜欢污名化职业经理人,但Intel三次严重走弯路全是技术背景CEO带领下公司经营或投资方向出现重大失误,是个反例。
另外今天很多《分析师》认为Pat领导下Intel技术方面没大问题也是半吊子,对Intel现状没基本认知。
有些人喜欢污名化职业经理人,但Intel三次严重走弯路全是技术背景CEO带领下公司经营或投资方向出现重大失误,是个反例。
另外今天很多《分析师》认为Pat领导下Intel技术方面没大问题也是半吊子,对Intel现状没基本认知。
👍13🤔5👏2
接下来一段时间比较感兴趣的硬件
- Intel B580单槽卡,如果有AIB愿意做(或者专业卡?)
- 旗舰Navi48游戏卡
- Strix Halo(优先mini pc,实在没有就笔记本)
2027年之前感觉就这点东西了🙃
- Intel B580单槽卡,如果有AIB愿意做(或者专业卡?)
- 旗舰Navi48游戏卡
- Strix Halo(优先mini pc,实在没有就笔记本)
2027年之前感觉就这点东西了🙃
👍16❤1
David's random thoughts
谈谈Linux与ITMT调度器与多簇处理器 https://blog.hjc.im/thoughts-on-linux-preferred-cores-and-multi-ccx.html
终于……看起来再过段时间我就不需要用自己patch的内核了,未来Linux用户的单核跑分也会普遍正常了。
https://lore.kernel.org/lkml/20241203201129.31957-1-mario.limonciello@amd.com/
https://lore.kernel.org/lkml/20241203201129.31957-1-mario.limonciello@amd.com/
👍13👏4