OpenAI 小丑麻了,据说 1t 激活,120t 训练量跑了个 4o 级别的玩意出来,哈哈
150 刀的推理成本就离谱,现在 OpenAI 真就只会无脑堆量了,还堆不出来,赶紧被 scaling law 干死吧
15 倍 claude-sonnet-3.7 的价格😅
150 刀的推理成本就离谱,现在 OpenAI 真就只会无脑堆量了,还堆不出来,赶紧被 scaling law 干死吧
15 倍 claude-sonnet-3.7 的价格😅
🥴58💩13
今天 DeepSeek 开源的是一个自研的高速文件系统,对集群固态存储有很好的优化,也是我预测会开源的三个 infra 中的第二个(x
这个技术的重要性不亚于 FlashMLA,用户也可以明显感知到使用体验上的提升,其主要作用于 kvcache 的提速降本
使用过 DeepSeek API 的群友可能都会发现两个事情:API 的收费分输入和输出,其中输入「如果缓存击中,则价格打骨折」,这个缓存就是 kvcache
大家都知道现在的 causallm 都是相当于给出所有的上文(prefill),让模型预测下一个词;而由于 transformer 的无状态特性,每推理一个词模型都会需要把所有上文全部重新读一遍,非常浪费。kvcache 就是把重新读一遍前面部分的计算结果先暂存下来,来缓解这个问题
这个技术的重要性不亚于 FlashMLA,用户也可以明显感知到使用体验上的提升,其主要作用于 kvcache 的提速降本
使用过 DeepSeek API 的群友可能都会发现两个事情:API 的收费分输入和输出,其中输入「如果缓存击中,则价格打骨折」,这个缓存就是 kvcache
大家都知道现在的 causallm 都是相当于给出所有的上文(prefill),让模型预测下一个词;而由于 transformer 的无状态特性,每推理一个词模型都会需要把所有上文全部重新读一遍,非常浪费。kvcache 就是把重新读一遍前面部分的计算结果先暂存下来,来缓解这个问题
🔥73🥰7
橘橘橘子汁 & 🍊
来了来了,Day6! 把尤老板脸打烂,菜就多练.avif 这个大家都能看懂应该,看就是了 https://zhuanlan.zhihu.com/p/27181462601
尤老板技术可以软,嘴必须是硬的
顺便把硅基流动骂了一顿,怼天怼地怼空气
DeepSeek Infrastructure 团队用尽了全产业以及大量的美国知识产品,没有感恩之心吗?
顺便把硅基流动骂了一顿,怼天怼地怼空气
🤣78🤡6
1830年七月革命发生,保皇势力出亡,高等师范学院校长将学生锁在高墙内,引起伽罗瓦强烈不满。12月伽罗瓦在校报上抨击校长的作法,因此被学校退学。由于强烈支持共和主义,从1831年5月后,伽罗瓦两度因政治原因下狱,他也曾企图自杀。在监狱中,伽罗瓦仍然顽强地进行数学研究,一面修改他关于方程论的论文及其他数学工作,一面为将要出版的著作撰写序言。
据说1832年3月他在狱中结识了一个医生的女儿并陷入狂恋,因为这段感情,他陷入一场决斗,[1] 自知必死的伽罗瓦在决斗前夜将他的所有数学成果狂笔疾书记录下来,并时不时在一旁写下“我没有时间”,第二天他果然在决斗中身亡,时间是1832年5月31日。这个传说富浪漫主义色彩,为后世史家所质疑。
在去世的前一天晚上,伽罗瓦仍然奋笔疾书,总结他的学术思想,整理、概述他的数学工作。他希望有朝一日自己的研究成果能大白于天下。
😁54🗿2