David's random thoughts – Telegram
David's random thoughts
1.73K subscribers
268 photos
1 video
29 files
173 links
个人想法合集,主要同步来自Twitter (𝕏)、知乎、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
Qwen QwQ实际用起来效果比几个DS蒸馏模型要强得多,试了之前几个经典问题都比DS用更少的token做出来。

可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model,以及因为众所周知的原因大概率热度远不如DS😆
👍271
试着往Open WebUI里扔50k token的内容,结果Chrome毫无压力,Firefox死了……🙃
😁30😭15😱1
看起来前阵子进pytorch main branch的RDNA4支持现在已经有nightly build出来可以用了。。。。。然而我首发没抢到原价卡🙃
👍12
Twitter/X的代码质量现状:想uncheck掉推送里的中文都做不到了。
😁29
vLLM 4卡W7800 48G vs 双卡W7900单用户llama 3.3 70B 4bit + 1B 4bit 3-token投机解码

图形卡走PCIe P2P扩展到4卡也还能看到明显收益,最好的情况甚至达到了>50%。

说实话,哪怕不考虑计算卡,只是跟专业图形卡运行vLLM比起来,类似Mac或者多通道服务器CPU LLM方案的性能也有点行为艺术的感觉。。
👍7
为什么又聊到Mac跑LLM是行为艺术,因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM),还有一群KOL真的出来测DS 671B跑出将近20t/s

但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。

https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
🤣36😁7🔥1
.NET Core这种LTS只支持3年还喜欢日常搞breaking change的support policy,后果就是我们一大群屎山业务逻辑代码费了老大的劲移植到 .NET Core 之后还要隔三差五的去升级 .NET 版本修兼容性问题,而隔壁躺平在 .NET 4.7.2 的业务则可以一直享受Windows的无感security patch + 无敌向下兼容。
😁55
2077 1080p路径追踪RDNA 3 vs 4,后者用上新的traversal指令之后RT shader寄存器压力骤降(240 -> 96),occupation也直接满了(6/16 -> 16/16)。

2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。
🔥14👍1
🙃o3 mini上个月还能答对的问题现在已经开始胡言乱语了
😁271
手动编译develop branch的hipBLASLt之后9070XT的llama.cpp性能表现正常一些了。prefill性能反杀Navi31将近40%,decode性能差距也远小于显存带宽差距。

后面也许可以利用RDNA4的load-transpose之类的新指令进一步做一些优化。可惜游戏卡显存容量还是太小,干不了什么大事。
🔥6
David's random thoughts
2017年以来的每一年都是WoA元年,今后的每一年也将继续是🙃 https://x.com/tomshardware/status/1903489920632791148
在PC这种夕阳市场拿到份额有多不容易看隔壁AMD移动端有多难就知道

靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前

为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
👍371
为什么前段时间说老美航天就算没马斯克也是断档领先。。图里这些火神芯级如果都拿去做VC4/6构型,那么每发都相当于长5运力。这个爆产能的能力恐怖如斯,国内见过这么多长5同框吗

不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣

https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
😁17🤣5🔥2
🙃 铺天盖地的营销最后不还是连个AEB都做不明白
😁33🤣3👎1
9070XT当前运行llama.cpp的性能/效率如图(开启FA并且使用q8_0的kvcache量化)

ROCm尚未正式支持RDNA4,需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改

可以看到虽然整体效率比起RDNA3已经有明显改进,但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想,此处需要高情商:未来可期
👍16😁3
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
😁24
David's random thoughts
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
好吧,看了一圈llama4的风评,我已经开始心疼月初就用了将近1TB的流量下载这货把整个月的vps流量都快用完了……
😁27😢5💔1