在微软工作是什么体验:
- 周二/周三早上七点半跟美国人开会
- 周三/周四凌晨两点跟美国人code review
- 周五到周日继续正常工作三天
- 然后打开群发现群友在聊微软养老院等话题
不知道的还以为微软被马斯克收购了🙃🙃🙃
- 周二/周三早上七点半跟美国人开会
- 周三/周四凌晨两点跟美国人code review
- 周五到周日继续正常工作三天
- 然后打开群发现群友在聊微软养老院等话题
不知道的还以为微软被马斯克收购了🙃🙃🙃
👍24🤣15🐳3⚡1😡1
在business practice(而非技术)方面我最看不惯的两个公司,一个是Google,另一个就是NVIDIA。前者导致我一直坚持Firefox,后者导致我把全天下non-NVIDIA的GPU都用了个遍。
DOJ把Chrome从Google剥离出来独立运营之后当天我就会卸载Firefox,不过NVIDIA这次估计还是只能罚点钱,本性难移。
DOJ把Chrome从Google剥离出来独立运营之后当天我就会卸载Firefox,不过NVIDIA这次估计还是只能罚点钱,本性难移。
👍20😁1🤔1
B580还需要一段时间才能在Debian下正常用,现在Debian和flatpak默认的mesa版本都太老,能正常玩的游戏比较少。flatpak的mesa-git似乎直接连Steam都起不来。
2024年连AMD都在新游戏卡上架前几个月就把ROCm支持做好发布了,Intel依然在文档上不写清楚哪一版oneAPI支持哪些显卡。。从非常简单的demo都报错来看大概率是没支持B580的。
😁11❤1
David's random thoughts
2024年连AMD都在新游戏卡上架前几个月就把ROCm支持做好发布了,Intel依然在文档上不写清楚哪一版oneAPI支持哪些显卡。。从非常简单的demo都报错来看大概率是没支持B580的。
我大概明白怎么回事了,不是toolkit不支持而是Debian的intel level zero版本不够新🙃
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。
当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
❤13
David's random thoughts
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。 当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能,与7800XT对比性能与显存带宽大致成比例,后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂(vkpeak的matrix测试也跑不了)
SYCL则是全盘比Linux还差,flash attention也没什么好实现
SYCL则是全盘比Linux还差,flash attention也没什么好实现
👍10