David's random thoughts – Telegram
David's random thoughts
1.73K subscribers
268 photos
1 video
29 files
173 links
个人想法合集,主要同步来自Twitter (𝕏)、知乎、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
当年的偷懒最后害的还是自己!

https://x.com/hjc4869/status/1332569705912041475
😁32🤣17😇32
B580虚拟化看起来也没什么问题,设备直通,驱动,虚拟显示器设备,以及关机重启reset之类的都ok。
👍11
拿长5B这种大国重器打互联网卫星,放在美国是不是相当于拿SLS发星链🙃
David's random thoughts
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。 当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能,与7800XT对比性能与显存带宽大致成比例,后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂(vkpeak的matrix测试也跑不了)

SYCL则是全盘比Linux还差,flash attention也没什么好实现
👍10
一幅裁员裁到大动脉的感觉。。

https://x.com/aschilling/status/1869457604570657065
😁15
David's random thoughts
一幅裁员裁到大动脉的感觉。。 https://x.com/aschilling/status/1869457604570657065
细看了一眼,这个里面大部分问题都是Windows 11 26100.2161修掉的,而这个版本10月就已经发布,这阵子各家评测应该已经包含这个更新。

0x114微码官方认为游戏性能只有个位数百分点提升,目测就调调prefetcher参数之类的细枝末节。基本上可以认为ARL-S的游戏性能不会有本质变化了吧?
👎4
真这么搞的话当年GitLab抢走GitHub的用户和开源项目怕不是要全部还回去

https://x.com/felixonmars/status/1870821742685663719
😁20😢11👏1
肉眼粗略观测了Orin的几个CPU频率对应的功耗之后我有点怀疑NS2的CPU会像NS1一样锁到1GHz附近……也许最多1.5GHz。
8
翻了下手头的数据,发现居然只有Crestmont LPE适合拿来给Orin作对比。
以后nvidia只需要每代把DLSS FG生成的帧数提高一倍就可以延续摩尔定律了
😁56🤣23🥰1
用了一段时间发现严肃地用LLM还得用vLLM。llama.cpp 目前两方面不尽人意,以双W7900运行Qwen 72B为例

1. 多卡row split的prefill性能较低,之前的测试里提到过;
2. flash attn超长上下文性能:32K上下文后性能从17t/s降到个位数,而vLLM只从24t/s降到17t/s。

很多坑还是很难从简单跑分里反映出来。
世纪大难题:Intel Xe2需要6.12+内核,amdgpu-dkms需要6.11-内核,那么如何让两个设备同时工作呢🙃
🤔17
我开始有点相信AMD CES不细讲RDNA4的说辞了,大概是时间真的不够吧(逃

https://x.com/0x22h/status/1877264593686233380
🔥14👀3
Windows商店做了十几年,结果能用的东西还不如flathub多🙃
🤣64😁3🤮1🤡1
才看到llama.cpp合并了Phi3.5-MoE的支持,这种应该是最适合Mac或者大号APU运行的模型了。Mac Mini实测30+ t/s,等什么时候玩到Strix Halo也跑一下。
👍14
NS2平台的隐忧:CPU性能

NS2作为一个游戏主机平台,大概率会因为CPU追求determinism导致必须按照最坏的情况规划功耗分配和对应的频率。不同模式下CPU的性能差距也不宜过大,掌机模式的功耗限制会拖累底座模式的CPU性能潜力。

6-8核心如果只能跑在1GHz下,会导致其CPU综合性能不如2GHz的SteamDeck。

备注:Steam Deck单核心测试的最低点为1GHz,拐点是2 GHz,多核心测试最低点是1.7 GHz;Orin最低点均为1GHz。
👍13
偶尔拿出笔记本电脑时最让人欣喜的两句话:Updates are underway. Please keep your computer on.
😭22😁10😈6