Linux.do 热门话题 – Telegram
Linux.do 热门话题
3.23K subscribers
26.1K photos
35 videos
13 files
42.4K links
除了Linux,其他的我们都聊一点
https://linux.do
Download Telegram
今日趣事,或许是我太敏感了

看到 L 站孙佬测 claude 套餐额度的帖子被 AI 洗稿做成 HTML 发小红书,转载的时候只说“有人测出来额度”,没标任何作者和出处

或许是我太敏感了,评论区吐槽了一句,原文忘记说的什么了,我记得是“转载得标个出处吧”之类的陈述句

作者回复:“好的,已补充”(类似的话)

此时另外有一个佬友在小红书回复:“孙佬的帖子:xhs_015:”

但此时他并没有补充任何东西,帖子原封不动

于是我问:补充到哪了

过了几个小时之后我再查看的时候,我看有别人回复过我,然后显示原评论已删除,好奇点了进去,点开了“作者”头像,发现

哦,原来是忘记把我补充进黑名单了

我不行了我回家看完之后笑了两分钟

连忙发给 Gemini,Gemini 这句顺口溜笑死我 🤣
偷天换日不费吹灰之力,掩耳盗铃全靠一键拉黑

漫画美术家Caricature Artist:
惺惺作态难掩吃相难看,狗急跳墙尽显利欲熏心。

30 个帖子 - 26 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: lueluelue)
1
【正月十五回馈社区之周二】codex自由,取之于佬,用之于佬

给不想部署cpa的佬友代理下论坛的codextoken,省去找token的麻烦
支持codex cli
地址:https://cpa.aitop.homes/v1
Key (点击了解更多详细信息)
gpt-5.2-codex,gpt-5.3-codex

29 个帖子 - 27 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: hapic)
推荐一个openclaw的agent方案:三省六部制

三省六部制,使用古人的智慧进行编排,确保信息传递有效、编排合理。
github.com

GitHub - cft0808/edict: 🏛️ 三省六部制 · OpenClaw Multi-Agent Orchestration...

🏛️ 三省六部制 · OpenClaw Multi-Agent Orchestration System — 9 specialized AI agents with real-time dashboard, model config, and full audit trails

参考图:

72 个帖子 - 42 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: 我不是蔡原)
关于一家三口去旅游的不同想法

我是风光佬,媳妇是都市党。
去年北京旅游回来,我们商量好,一年去看风景,一年去看大都市,轮换着玩。
今天该去看风景了,我来做计划。
我想去贵州看峡谷和瀑布,媳妇说没兴趣。
那不如去长白山看天池,媳妇说其实也没兴趣。
我说,那去年不是说好了,一年我决定,一年你决定,怎么不认呢?
她说,是让你决定,但是我也得喜欢去啊!一年出去一次不能去个我不喜欢的地方吧?
我说,说白了,还是要挑你喜欢去的地方。

(完)

90 个帖子 - 41 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: 匿名佬友#4241(INTJ版)📷)
幸福又美满的一天吧

41 个帖子 - 40 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: niikesi)
震惊!CodeX还能看视频学习了?

codex这么强吗,让他用python实现一个视频特效,他还自己找B站视频学习了。
我还找到这个视频看了一下,确实是我要的效果。

补充一下运行过程:

56 个帖子 - 36 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: Bingqiang Zhou)
感觉L站真的不适合深讨论

rt,目前还没看过任何一个深讨论的帖子,这么大的热度和用户量,如果只有文档共建这一个类别好用那就太可惜了,像我这种小菜鸟基本查不到只能靠提问来获取要查的知识。

----------------------

叠甲先,只是希望L站越来越好

----------------------

只是感觉我自己提问发帖有点浪费论坛资源,如果能在一个大帖子的评论找到我的答案我就不会有这种负罪感了 :tieba_001:

----------------------

你们说以后的论坛有没有可能一堆人和一堆AI讨论

----------------------

吞天蛤蟆:
我觉得深度的技术帖就像一个漏斗:最底部是大佬们在核心层面的硬核探讨,而上面则是大家针对这些探讨衍生出的各种提问和解答,层层递进。从这个角度看,各种‘疑难杂症’构成了漏斗最宽广的表层。它们虽然对提问者很有帮助,但客观上确实会产生较大的信息量,让后来想要直接挖掘‘漏斗最低点’深度内容的人,需要花费更多时间去筛选信息。

132 个帖子 - 101 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: 吞天蛤蟆)
霸王茶姬10点,3月4日第三期10w份奶茶免单

路径: VX小程序-霸王茶姬-首页banner-看图猜口令
免单口令预计:一抹云海
更新口令:归云南云焦卡美罗
前2天都领到了,各位佬友调好闹钟加油~

100 个帖子 - 82 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: Alan6)
「抽奖」庆祝今日突破codex个人记录,突破20E token大关.抽5个google ai pro美区家庭组位置

最近几天忙着写一个开源项目和改进之前的一个开源项目,疯狂蹬codex,今日突破20E tokens大关 :distorted_face:

特此庆祝,抽五个google ai pro美区家庭组位置,还剩11个月,无质保,中奖者需自备美区google账号,且1年内没有加入过任何家庭组
中奖后私发我你的google账号即可。

剧透

「抽奖」Google Ai Pro美区家庭组位置 * 5

🎁 奖品详情:

[奖品1]:Google Ai Pro美区家庭组位置 * 5

📅 活动时间:

开始时间:2026年3月04日 00:00

截止时间:2026年3月05日 00:00

🎯 参与方式:

回复:祝L站越办越好相关内容即可

🎲 抽奖规则:

每位用户仅允许参与一次

使用 https://lottery.linux.do/ 官方抽奖工具 随机抽取中奖者。

⚠️ 注意事项:

1. 本活动将在活动截止时间后关闭回帖,以确保公正性。
2. 中奖者将在活动结束后24小时内在本帖公布,并通过私信通知领奖方式,请确保你拥有一个美区google账号,且1年内没有加入过任何家庭组。
3. 请在收到中奖通知后24小时内回复确认,逾期视为自动放弃。
4. 家庭组邀请将通过私信发送,请确保能接收私信。
5. 所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。

155 个帖子 - 155 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: agi_is_coming)

Invalid media: image
[已截止]刚来佬站,没啥送的,抽两个国产coding plan

佬友们晚上好,刚来佬站,没啥送的,抽两个国产coding plan。

👀: 详情:

阿里 一个月coding plan会员的api key
minimax 一个月coding plan会员的api key

两个API KEY依次抽,不可更换
:three_o_clock: 活动时间:

截止时间:大概2026/03/4 12:00

📝 参与方式:

在本帖下回复任意内容。

🔍️ 抽奖规则:

每位用户仅允许参与一次。

使用官方抽奖工具随机抽取中奖者。

⚠️ 注意事项:

本活动将在活动截止时间后关闭回帖,以确保公正性。

中奖者将在活动结束后 12 小时内在本帖公布,并通过私信通知领奖方式。

所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。

期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。
================================================================================
LINUX DO 抽奖结果 - 0.1.1
================================================================================
帖子链接: https://linux.do/t/topic/1685051
帖子标题: [已截止]刚来佬站,没啥送的,抽两个国产coding plan
帖子作者: whitelonng
发帖时间: 2026-03-04 01:32:18
--------------------------------------------------------------------------------
抽奖时间: 2026-03-04 12:06:28
参与楼层: 2 - 138 楼
有效楼层: 137 楼
中奖数量: 2 个
最终种子: 0274ebe24701edf47d1e8543595130273946e47977a1d5645ca29764ae019ec8
--------------------------------------------------------------------------------
恭喜以下楼层中奖:
--------------------------------------------------------------------------------
[ 1 ] 69 楼,楼层链接: https://linux.do/t/topic/1685051/69
[ 2 ] 60 楼,楼层链接: https://linux.do/t/topic/1685051/60
================================================================================
注: 楼层顺序即为抽奖顺序
================================================================================


142 个帖子 - 138 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: Null)
关于老虎中转站近日的一些事情,我的一点粗糙看法。

前言:本文纯属个人基于公开客观数据(2026年3月3日官方公告及群聊记录)的粗糙推演,如大家觉得不合理,把我当乐子看即可。

群内老虎客服在3月3日说晚上会公布政策公式等,但我没有在qq群看到,可能是我的问题?是我信息渠道闭塞吗?也许发到了qq群外的地方?
Tiger 企业对接客服专号 18:17:02
关于退款的公式计算,今天晚上会公布我们平台的退款政策和计算公式
我且只按照群聊里的来说,如有错误欢迎指出

----------------------

让我们先把模型截止目前为止老虎站的价格写清

----------------------

claude-opus-4-6 价格

----------------------

claude-sonnet-4-6 价格

----------------------

gpt-5.2 价格

----------------------

gpt-5.3-codex 价格

----------------------

----------------------

一则公告

老虎在2026年3月3号12时6分,在qq群(Tiger API 使用及售后交流群)群公告发布了涨价公告。
原话:鉴于现在及未来cc max ,特价渠道的封控升级,经内部决定,tiger 平台价格自2026年3月3日15:00开始价格从1.5兑1刀提高到2兑1刀,0.7倍率不变,分发商接 tiger 平台,如没有事先报备,我们会直接封号
然而,老虎中转站里有chat gpt,直接提高充值额度,并说这是为了cc max而作的措施。
但chat gpt却分毫不说,那使用中转站的人充值想去用gpt的呢?
那么他就要付出两倍的价钱去使用gpt。

老虎的gpt5.3codex,gpt5.2,本身输入我们上述写了。

我暂不与其他中转站比较,但单论上面我说的双倍价格使用gpt这点,这就略有些荒谬了。

如果你单纯是为了cc即claude code max涨价,那你为何不动cc的单独倍率,而是直接动充值倍率,导致使用你家平台chatgpt的人无辜遭殃?

好,我们就假使老虎要走claude 特化了,不要gpt了!

----------------------

关于退款

我们来说说就在3月3号老虎群发生的退款时间,正在老虎发布这个神秘的公告当天 发生的退款事件

一位群友于2026年3月3日16时18分59秒时开始询问老虎:退款具体什么流程,怎么计算,给大家说一下。

他当时余额为163.45,历史消耗为77.55,请求次数为6374次。

此群友发布了一个截图,疑似与老虎客服的谈话,此客服原句如下。
我假设,你充100,按0.7用,你用了90,你说我不用了,你退我10块钱。
这个时候,你时间消耗了我90/0.7=128.57143
对不对
那我再退你10快
我总共给你占了128+10=138
注:并且此客服的话也许有点打错字了,我们可以把客服说的(时间)换算成「实际」,这也许就好多了。
你实际消耗了我90/0.7=128.57143
我们便总结出,似乎这家的退款比例是按照使用渠道的倍率计算的?

这着实令人有些,困惑?

我们需要计算一下,我们的余额是100元,我们接入了cc max 官渠,使用的倍率是0.7,即一个模型原价是3元提示,15元补全。

中转站乘以了0.7,3×0.7=2.1,15×0.7=10.5。

所以,此时客服的意思是,如果你使用了我0.7倍的优惠,那你的余额使用我们应该除以0.7,这才是你真实使用的数据,然后再退款,因为你获得了所谓的“优惠?”

我打个比方:你在超市买了打折的几瓶牛奶,喝了一两瓶剩下几瓶没喝的也没有动,觉得难喝,有问题,剩下的想退。超市说:因为你享受了折扣,退款要按原价来算你消费了多少。

0.7倍率,本就是老虎对该渠道定的正常售价,并非临时让利。用这个倍率来反向还原退款金额,这似乎……

嗯……

而且老虎还设定了2人民币充1个老虎中转站余额……

我将群内后续原话展出(非官方人员昵称已隐私处理)
群友A 16:18:59
@ 企业对接客服专号 退款具体什么流程
群友A 16:19:01
怎么计算
群友A 16:19:07
给大家说一下。
Tiger 企业对接客服专号 16:19:14
你的额度发下
群友A 16:19:51
我都是用的 kiro
群友A 16:20:00
退款是不是还得 77/0.2?
Tiger 企业对接客服专号 16:20:55
提供你的使用记录,你如果用的是特价的就是按特价的0.2算
Tiger 企业对接客服专号 16:21:11
你用的还 CC max 的 i 就是用0.7的算
Tiger 企业对接客服专号 16:21:22
你前面没有说你是用特价的还是 max
群友A 16:21:24
按 0.2算 我是不是还得给你补钱呢?
群友A 16:21:45
特价就是 kiro
Tiger 企业对接客服专号 16:21:45
[不支持的元素类型]@群友A 你自己算一稿
Tiger 企业对接客服专号 16:22:18
是是不 kiro 不重要,你用的那个倍率就是用哪个给你计算
群友A 16:22:31
那你开什么中转站?
群友A 16:22:36
充值按汇率
群友A 16:22:40
退款按赔率?
所以这倒是更明了!使用逆向0.2的kiro,假设我是冲了100用了90,我想退款,我是需要:90/0.2=450

我已经用了老虎450了!

😧💥

我应该赔给老虎350。

这对吗?

但逆向渠道成本极低,max渠道的相关内容,站内有相关的大佬详解了,我且不贴出具体地址,因为贸然贴出有些没有礼节,有想详细了解的佬友可以去搜索查看。

中转站的倍率本身就是相对的

关于kiro的逆向成本与详细原理站内大概都有,写到这里有点累了TvT,我就不去找了。

一个claude max 20套餐购买需200美元,实际额度估算3000美元,粗略换算每天100美元使用额度。(实际大概更多)
中转站将这一个分发给一群人,让他们将额度用满,claude将中转站这种分发行为检测到后封禁,再给中转站退还全款。
这种低倍率,1人民币换1美刀的汇率在claude code中转站本就是不亏的。

----------------------

老虎的claude code max 官渠倍率是0.7

而老虎把claude官渠设定为了 0.7 倍率
这看起来很好,然而……

​老虎设置了充值汇率是2:1,即你充值10元人民币才可获得5元老虎中转站的余额。

​所以,你充值是要打个“半折的”

​当你充了200人民币,实际获得100的余额,去使用0.7倍率的cc max 官渠时,假设你使用了90余额,还剩下10余额。

​这时候按照退款“取消优惠”的逻辑,你这部分的真实消耗应该是:90 / 0.7 = 128.571429

​账户里总共才100的余额,按照算法你消耗了128.571429。

这意味着,剩下的10个余额一分钱都退不到,直接被吞,还“倒欠”了平台:128.571429 - 100 = 28.571429 余额

​要赔老虎 28.571429 余额,那这 28.571429 个虚拟余额,是不是需要按照2:1的充值汇率,用人民币赔?比如倒贴 57.142858 元人民币补窟窿?

​这倒是个问题了,本人也不知道。

在此截取一下老虎群的对话
群友B 22:57:06
.. 现在是冲200得100了吗
Tiger 售后客服3 23:07:17
倍率是0.7,折算下来就是1.4

----------------------

117 个帖子 - 70 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: 荷处不见)
新年新气象 龙珠机场 预备中 增加签到 和运气签到功能

可每日签到领取流量
也可以赌狗来运气签到1-100GB 都可以
91 个帖子 - 90 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: 千夜)

Invalid media:
image
image
image
美伊冲突实时追踪网站

沉浸式翻译 | 全球局势实时追踪

【沉浸式翻译 - Chrome 2024最佳扩展】美伊冲突实时追踪 | 打破信息差

2000万用户信赖的沉浸式翻译,一键开启YouTube双语字幕。聚合CNN、BBC、半岛电视台等全球媒体报道,实时追踪事态发展,直击一手现场。

刷到了这个网站,居然是沉浸式翻译搞的,新闻媒体的活儿它干了,属实有些没想到

51 个帖子 - 47 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: 云游者)

Invalid media: image
让 QQ 接入 openclaw!让你的助手掌管千人大群

在之前的文章中 https://zhuanlan.zhihu.com/p/2011616196106141860 ,我们成功的安装了openclaw,并在飞书中和它完成了交互,让它成为你的一个助手。但对于很多朋友来说,微信和QQ恐怕才是日常生活中最常用的两大通信工具,那么我们能不能让openclaw也能接入QQ或者是微信呢?

那自然是可以的。今天我就拿QQ为例子,简单讲一讲如何使用我发布的 openclaw 插件,来让你的openclaw 可以接入QQ。

为什么不用 QQ 开放平台接入

很多朋友可能和会和我反驳说,QQ官方不是提供了接口和机器人来让 openclaw 接入吗?这是当然。但是如果你想要让你的 QQ 机器人进入千人大群,那么 QQ 官方提供的方法是做不到的。因为 QQ 官方的机器人在没有审核的前提下,只能加入人数少于 20 人的群,而腾讯的审核又是极其繁琐,要交一堆材料。

将 openclaw 接入 QQ

第一步:安装 onebot 服务端

QQ的 onebot 服务端网上存在好几个社区维护的版本。我比较推荐的是 napcatmirai

两者都提供了非常丰富的文档,尤其是napcat,甚至帮你把签名服务器都搞定了。你要做的就只是启动完之后扫个码,然后就结束了。下面是 napcat 的官方文档:
napneko.github.io

NapCatQQ | 现代化的基于 NTQQ 的 Bot 协议端实现

基于NTQQ现代化协议端Bot框架

官方文档写的比我说的详细多了,我就不再赘述了。你根据文档上的流程,正常的安装完成,启动你的QQ号就可以了。

第二步:配置 onebot 协议

napcat 的配置有 TUI 和 WebUI 两种。我先讲 TUI 的,WebUI 的其实差不多。

sudo napcat 进入 TUI 后,选择【配置】:

选择你的账号,点【配置服务】,然后选择 WebSocket 服务端(正向ws)

然后配置一下,按照我这样填,名称随便起,token也就是密码,你自己起一串,然后记住。

消息格式选择数组,启用选项用下面这组:

然后就配置完成了。

WebUI 配置大同小异,基本都是一样的,我就简单说一下入口,当你进入 WebUI,选择网络配置

点击【新建】,选择 WebSocket 服务器,然后会跳出来一张表单,这张表单的内容和上面的TUI的表单内容完全一致,我就不再赘述了。照着我上面说的填写就可以了。

第三步:扩充 openclaw 的频道

openclaw 默认的频道里是没有 onebot 的。我前天简单写了一个晚上,把onebot给支持了一下,也求大家多多点赞 GitHub - LSTM-Kirigaya/openclaw-onebot: onebot adapter for openclaw · GitHub

在 openclaw 里,通过下面一行命令就能完成安装配置:
openclaw plugins install @kirigaya/openclaw-onebot
openclaw onebot setup

完成这两行代码的运行之后,会出现TUI的一个表单。这个表单里填写的内容就是我们之前配置onebot 的 websocket 服务器时的内容,别的选项填写下面的👇️,Access Token 就是你刚刚起的token 密码

完成配置后,openclaw 会提示你重启,你只需要正常重启就好了:
openclaw gateway restart


验收成果!

在我的设计中,私聊,还有群聊的艾特都会触发机器人的正常回复,所以你这样测试就可以了:

可以看到我增加了一个小细节,当机器人刚收到消息的时候,他会为你的消息增加一个咖啡杯的表情,你也可以通过这一点来快速判断当前的机器人是否正常工作。

(可以跳过)课外拓展——什么是 onebot 协议

我稍微解释一下什么是 onebot,以及什么是 onebot 服务端。onebot 其实是一种协议,这个协议是由社区倡导的,它规定了一个即时通信软件,需要实现哪些基本功能。比如说接收消息,发送消息、发送图片、上传文件等等。

比如QQ和微信里面,用户向群聊发送一个文本消息的函数都是不一样的。可能在QQ里就叫做 qq_send_text,在微信里就做就叫做 wechat_send_text。而且这两个函数的接口和返回值也不一样,这给开发者带去的一些困扰和麻烦。而在 onebot 协议里,发送群聊文本就是 send_group_msg,onebot 屏蔽了各大通信软件的实现差异,让开发者可以更加专注开发出可移植性强的机器人或者客户端软件。

只要一个通信软件它本身实现了onebot协议,那么我们就可以只访问这些标准的 onebot 的协议接口,而无需关心具体这个通信软件本身的底层实现,来实现基本的消息接收与发送。而实现了onebot的协议的通信程序就是onebot的服务端。而我们通过onebot提供的标准接口来操作通信软件,这样编写的一套程序,也就是onebot的客户端。

从上面的文字你也能看出来,社区编写的onebot的客户端主要就是两种用途:

1. 觉得官方实现的通讯软件太丑了,或者说有些功能无法实现。那么他们有的人就可能会基于onebot协议做一个新的GUI客户端。而且假设QQ,微信,飞书都有人实现了onebot的服务端,那么你就可以只通过这样一个onebot的客户端软件界面来同时接收QQ微信和飞书的消息。
2. 实现一些自动化的机器人或者是工作流。比如说最常见的需求就是每天定期的往群里发晨报,或者定期的对群聊消息进行总结和热点分析,这也可以通过编写 onebot 的客户端程序来实现。

onebot 协议在网上有很多版本,目前支持最广的是V11这个版本。你们可以通过下面这个项目来查看V11版本的具体协议细节。此处就不再赘述了。

GitHub - botuniverse/onebot-11: OneBot 11 标准 · GitHub


结语

好了,相信通过今天的博客,大家都知道如何在QQ里自由的部署你的 openclaw 了,也都知道什么是 onebot 的协议了。显然,如果你能在黑市上找到有人实现的微信的 onebot 协议,你也可以完全按照上面一模一样的方法,来把微信接入你的 openclaw,实现你的一些私域的管理或者是自动化的营销。

不过可惜的是,微信的管控一直非常严格。如果你真的胆敢把实现好的微信onebot服务端公开到github上,相信你光是吃律师函就能吃到饱。

在后面我会持续更新一些 openclaw 相关的使用技巧。这里面能做的事情确实很多啊,不过眼下,我得先睡会觉了。

32 个帖子 - 29 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: 锦恢)

Invalid media:
image
image
image
image
image
image
image
image
animation
DeepSeek V4 个人技术前瞻

前言 (点击了解更多详细信息)

自2025年春节DeepSeek-R1的论文爆火以后,Deepseek不仅为这个世界贡献了RL路线的推理模型技术方案,更是以其低廉的模型训练成本,震惊了当下的大模型业界。而今距离石破天惊已然过了一个春秋,回顾这一年里,不仅各家厂商如雨后春笋般推出了众多优秀模型,更有ClaudeCode引领的Agentic Task应用范式迭代。闭源模型有御三家激烈竞争,GPT-5 Pro、Claude Opus 4.6和Gemini 3.1 Pro各自留下了浓墨重彩,国内的Kimi-2.5/GLM-5/MiniMax-2.5也不遑多让,Qwen 3.5更是可谓挑起了开源模型的大梁。而在此风云下,DeepSeek V3.2系列固然让人看到不少亮点,但是也对V4抱有更多期待。那么本文就以近期DeepSeek-AI的多篇研究工作入手,对即将到来的新一代基模进行预测,笔者才学有限,如有谬误之处还请不吝指出。

为了不至于让本文显得是对论文的堆砌总结,不按照论文发表时间进行而是从架构、训练、推理部署乃至应用特化等角度进行分析。如果说最让笔者报以期待的,当仁不让的就是Engram这篇论文中提到的条件记忆模块,这篇由梁文峰署名的工作提出了一种新的大模型稀疏性维度。众所周知Transformer架构自诞生以来就受限于其缺乏原生的知识检索原语,对于海量的事实性信息LLM被迫依赖FFN模块的静态模式重构,在浅层网络中消耗了极其宝贵的有效深度,挤占了整体模型的推理算力容量。而去年一年大行其道的MoE系统确实能够扩展容量并减少推理压力,但是这种条件激活是有代价的。Engram模块则是通过分词器压缩将输入序列进行浓缩并提取其上下文特征,利用多头哈希将压缩的上下文映射到外部Embedding表;这样则实现了一个确定性寻址,能够在常数时间复杂度完成条件记忆块的加载,再与当前上下文进行动态融合。这种架构解耦了知识检索与动态推理,不仅仅在知识检索类benchmark获得了显著提升,也在通用推理等领域带来了收益,说明Engram机制能有效优化早期层的可用深度。剧透

其次是mHc这篇论文中的流型约束超连接范式,由于时下的LLM早就不满足于标准残差连接而是转而使用Hyper-Connections范式,通过大幅扩展残差流的宽度并引入多样化的跳连接模式换取模型性能提升,但是这种HC破坏了标准残差连接的恒等映射,可能导致训练时出现Loss Spikes,限制模型的Scale Up。而DeepSeek提出的mHC就是针对这个问题,通过严格约束的流形空间保证了残差连接空间的可控,在V3的预训练过程中,DeepSeek团队就提出过从未经历任何不可恢复的Loss Spikes,这一点在训练时具有莫大的优势。

除了底层架构的变化以外,最近还有两篇Dual系工作,分别是DualPipe和DualPath,由于笔者在推理infrastructure方面的基础实在是薄弱不敢贻笑大方,因此简要提一下文章中给出的优势。前者DualPipe是针对GPU集群通信的流水线调度,构建细粒度的内核,将传统的单一前向或后向块(Chunk)进一步分解为四个执行阶段:注意力计算(Attention)、跨设备调度通信(All-to-all dispatch)、多层感知机计算(MLP)以及跨设备结果合并通信(All-to-all combine)。配合微批次馈入,降低了流水线并行的气泡开销,提高训练过程的能效比和性价比。后者DualPath针对推理时存储I/O约束进行优化,在现代LLM部署中,尤其是当下的Agentic Task任务范式,包含了多轮对话与工具调用,每次的模型交互可能User Input只新增数百Token,但整个上下文会急速膨胀,目前业界主要采用“预填充-解码分离”架构,将PE和DE进行物理隔离。而实际上,在有KV-Cache的极高命中率场景中,GPU算力并非成本,如何将KV-Cache从持久化存储层如NVMe SSD加载回HBM成了IO Bound,现有的PD分离架构反而导致了资源错配。而DualPath引入双路KV-Cache加载机制,分别在PE/DE中增加了Buffer,利用全局的调度进行双路IO,再利用高带宽的网络(如InfiniBand或RoCE)从DE发送至PE节点。在这种方式的加持下,DualPath能将在线并发吞吐量平均提升1.96倍。笔者认为这也是近期DeepSeek在官方服务与V4 Lite中加入1M上下文支持的底气。

其他方面,近期V4 Lite版本的NDA测试中,传出Non-Thinking Mode性能超越了V3.2 Thinking Mode,合理认为Deepseek将早期的R1显示推理链已经内化到了V4的前向参数中。以及,据传V4 Lite是原生多模态,结合官方最近在DeepSeek-OCR 2上的工作,其图像空间理解能力也有较大提升,当然本段信息均无可靠官方背书,只是笔者猜测。

综合来看,本次V4最让笔者期待的是Engram加持下的Context处理方式和DualPath带来的推理吞吐量提升,这两者在当下的Agentic AI时代具有莫大意义,也衷心希望在不响这么久以后,DeepSeek能给我们带来更多惊喜。

24 个帖子 - 15 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: x1a0y4o)
喜大普奔,公司发了claude

不限额度,只发了key,aws的,爽蹬,都不用我注册报销

130 个帖子 - 105 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: s T)