David's random thoughts – Telegram
David's random thoughts
1.73K subscribers
268 photos
1 video
29 files
173 links
个人想法合集,主要同步来自Twitter (𝕏)、知乎、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im
Download Telegram
Debian sid前几天更新Plasma 6.3,时隔好几个月终于又能用上KIO smb而不用每次访问NAS都打开terminal手动mount.cifs了……
看了一圈首发评测,测70B LLM基本上都是在windows上用基于llama.cpp vulkan版本的方案在共享显存里跑出来的成绩,性能损失比较大。所以参考价值比较一般,Linux下把vLLM搭起来再上个投机解码之类的可以快不少。

不过这种平台跑LLM根本上还是跟我之前M4 Pro文章里讲的有差不多的问题,状况都比较尴尬。

https://x.com/kele_plus/status/1892081534443630771
🔥12🐳1
现在知道为什么给媒体送测的卡有特殊丝印了吧(

https://x.com/9550pro/status/1892956083507040756
😁9
看着50系首发这么多drama我本来都懒得说啥,不过最近感觉NVIDIA这个公司在我心目中的形象已经成功升级成独一份了。

集合了Google,华为以及挤牙膏时期的Intel的所有《优点》,最顶上那位PPT吹牛的能力比马斯克还强,还有一帮神奇的信徒。如此强大的公司怎么能不招人喜欢呢。
😁42🗿5👏3
其实这种事应该算常识而不是什么阴谋论之类的(

没有任何别的解释能说得通。如果是生产过程中没有筛出来缺陷品,那么在用户手里应该表现为玩游戏崩溃不稳定或者花屏等等故障。但如果NVAPI/驱动软件层面能识别,说明封测时已经发现缺陷并且作了对应的屏蔽、降级处理。


https://x.com/hjc4869/status/1893230565056229688
😁10
David's random thoughts
看了一圈首发评测,测70B LLM基本上都是在windows上用基于llama.cpp vulkan版本的方案在共享显存里跑出来的成绩,性能损失比较大。所以参考价值比较一般,Linux下把vLLM搭起来再上个投机解码之类的可以快不少。 不过这种平台跑LLM根本上还是跟我之前M4 Pro文章里讲的有差不多的问题,状况都比较尴尬。 https://x.com/kele_plus/status/1892081534443630771
为什么说vLLM在Strix Halo上值得一试

拿近似架构的W7900来说,双卡使用llama.cpp row split运行70B-72B q8的LLM大约是13 t/s左右的性能。但vLLM+投机解码可以实现30-40 t/s,当然96G显存极其紧张。

70-72B目前在STXH平台使用llama.cpp q4上限大约在5-6 t/s,提升后可能刚好到> 10t/s的高度可用水平。
😁3
话说之前一直都看到有人说MLX比llama.cpp快,但是实际测下来好像mlx 4bit vs ggml iq4_xs并没有快多少啊……
🤡3
它又开始犯病了……
🤡3😁1
昨天还在群里夸Intel 13700H核显SR-IOV有用,今天就被一小时崩溃一次的moonlight以及疑似每次连接都漏200MB显存的RDP server打脸了🙃🙃
🥰20🤡6
不知道Intel在倒闭的那一天之前能不能把各种场景漏显存的bug全都修完,从当年刚毕业入职开始这种核显漏内存的场景就没有停过,我怀疑等到我退休它还是这个鬼样。
🔥181
看很多讨论Framework STXH的顶配,但实际反而低配更好玩

799刀门槛低,在北美买套7700板u内存+4060都不止这个价格,这方面STXH居然有性价比。再一个之前讨论过这些设备运行LLM的尴尬,256b位宽适合32B q4模型,就算追求LLM用途也没必要上更大的内存

当然价格方面的结论仅限北美,国内还得深圳系努力
👍14
b站上面那一堆fsd翻车视频其实是不是都在免费帮马老板完善edge case训练集。。。
😁29👍1
试了下由于rocWMMA是个C++模板库,所以尽管它并不官方支持Windows,想在Windows上用它还是非常简单。

简单的patch就可以加速Windows上llama.cpp在ROCm/HIP下的flash attention推理性能(尤其是prefill和高batch size),需要的可以自行取用。

https://github.com/hjc4869/llama.cpp/releases/tag/b4786
https://github.com/hjc4869/llama.cpp/commit/1e0d34ec232b30913225a4f37cd4bdd173777d3d
👏14🫡4
现在搞本地部署主要目标群体是企业而不是个人,个人因为门槛高+利用率上不去会血亏。理论上几个熟人凑一块搭一套出来用也可以搞。

性能方面,本地Windows/Mac部署流行的基于llama.cpp的方案确实是并发差了点。vLLM/SGLang虽然并发性能好很多,但是环境和硬件上的门槛又要更进一步,所以也就这样了吧。

https://x.com/wwwyesterday/status/1895820270901887358
去年一直觉得Exynos 2400在上海用4G网络经常断流是Exynos的modem有问题,直到最近我把高通8 gen 2机器切换到4G模式用了一段时间,得到了几乎一样的体验……
😁13💊1