DeepSeek infra 开源周 第一天就把可能是最重要的高效 MLA 推理实现爆了
要知道在此之前开源社区(transformers 的实现和 llama.cpp 的实现)我记得都还在用最简单最破烂的 MLA 实现,即使大推理商也好不到哪去,这本来应该是大模型真正的「护城河」(没有优化的推理实现,即使开源权重其他推理商跑的成本都会被 DeepSeek 橄榄),D 圣人决定直接给它开源...
只能说是真不靠这个吃饭啊 真正的 OpenAI
https://github.com/deepseek-ai/FlashMLA
要知道在此之前开源社区(transformers 的实现和 llama.cpp 的实现)我记得都还在用最简单最破烂的 MLA 实现,即使大推理商也好不到哪去,这本来应该是大模型真正的「护城河」(没有优化的推理实现,即使开源权重其他推理商跑的成本都会被 DeepSeek 橄榄),D 圣人决定直接给它开源...
只能说是真不靠这个吃饭啊 真正的 OpenAI
https://github.com/deepseek-ai/FlashMLA
🔥90🐳12
小道消息说阿里有一个组做了个新的视频生成模型,打算这两天开源,现在放了个调用 api 的 demo 出来(这 demo 代码和上次那个一样烂 不会是同一个人写的吧
以及听说可以涩涩
https://huggingface.co/spaces/Wan-AI/Wan2.1
这两天活好多
以及听说
https://huggingface.co/spaces/Wan-AI/Wan2.1
这两天活好多
🥰48😱1