😁18
David's random thoughts
时隔多年升级存储,感觉这速度都能拿来跑llama 4了(逃
实际用下来这个速度的存储直接把C/C++标准IO API报废了。。各个层面大量buffering/拷贝导致内存带宽被干爆,10 GB/s读取在CPU端观察到70 GB/s带宽,4通道HEDT都扛不住。
换Linux API会好一些,但依然只有O_DIRECT能跑出比较接近理论值的性能,而它对offset对齐要求过于严格,日常实用价值也不大。。🙃
换Linux API会好一些,但依然只有O_DIRECT能跑出比较接近理论值的性能,而它对offset对齐要求过于严格,日常实用价值也不大。。🙃
❤2
进入2025年LLM给我的感觉是这条路线离所谓的AGI越来越遥远了。2023年展望更大更通用的模型,两年后模型的评估标准与发力方向越来越集中在特定高难度和高价值场景。被吹的天花乱坠的头部模型明摆着到处都是刷分痕迹,刷遍AIME竞赛题的CoT模型普遍做不出小学生都能想出来的简单思考题之类的,就很滑稽。
👍48🤡3✍2👎2👻1
❤25😁20
更新GB10 (N1X)、Thor、8700G、H350的测试成绩。 https://blog.hjc.im/spec-cpu-2017
GB10的X925比我预想中的性能要好得多:单核稍强于x86 H45笔记本,接近9955HX。全核接近100分。
Thor的单核则比我想象中要低,可能是因为没有L3导致。不过Thor 14核跑分刚好是单核的14倍,在automotive场景可以理解这种取舍。
GB10的X925比我预想中的性能要好得多:单核稍强于x86 H45笔记本,接近9955HX。全核接近100分。
Thor的单核则比我想象中要低,可能是因为没有L3导致。不过Thor 14核跑分刚好是单核的14倍,在automotive场景可以理解这种取舍。
🔥18