【开源2api分享】21,000+ tok/s 的 ChatJimmy,我把它变成了 OpenAI 兼容 API
看到坛里有佬分享 ChatJimmy 的恐怖输出速度,实测最高跑到 21,874+ tok/s,按下回车的瞬间答案就糊脸上了,根本来不及反应!
体验了一下确实离谱。虽然跑的是 Llama 3.1-8B 小模型,回答质量一般,但这个速度拿来做翻译、摘要、格式转换简直是神器,这速度真是离谱到家了
唯一的问题:它只有网页端,没有 API!
所以我写了个 Cloudflare Worker,把 ChatJimmy 转成了标准的 OpenAI 兼容 API,开源出来给大家白嫖
链接
● 在线演示:https://cj2api.keh5.workers.dev (需科学上网)
● GitHub:GitHub - qingchencloud/cj2api: 将 ChatJimmy 转换为 OpenAI 兼容 API 的 Cloudflare Worker | 零成本部署,支持流式输出,自带测试页
● npm:https://www.npmjs.com/package/@qingchencloud/cj2api
----------------------
长图演示,点击查看 (点击了解更多详细信息)
ChatJimmy 为什么这么快?
ChatJimmy 背后是硅谷初创公司 Taalas,他们搞了一个很疯狂的事情:把模型参数直接"刻"进定制 ASIC 芯片(HC1)里。
传统方案里,GPU 算力很强,但模型参数存在 HBM 显存里,计算时需要来回搬运数据,90% 的时间和电力都浪费在"搬砖"上
Taalas 的思路是:干掉 HBM,让计算即存储、存储即计算。模型权重直接编码在芯片的金属层里,数据不需要搬运,推理速度直接起飞
几个关键数据:
● 实测 21,000+ tok/s(Llama 3.1 8B),官方标称 16,960,比 NVIDIA B200 快近 50 倍
● 构建成本仅为同等性能 GPU 方案的 1/20
● 采用 3-bit / 6-bit 混合量化 + LaRA 适配器补偿精度损失
● 定制新模型只需换两层金属掩模,流片周期压缩到 2 个月
简单说就是:别人在优化软件,Taalas 直接把软件变成了硬件。
CJ2API:把这个速度变成你的 API
我写的这个 Worker 做的事很简单:把 ChatJimmy 的私有协议转成标准 OpenAI
● 兼容所有支持 OpenAI API 的客户端(沉浸式翻译、NextChat、LobeChat、OpenAI SDK……)
● 响应自带
● 支持流式 (SSE) 和非流式输出
● 部署在 Cloudflare Workers 免费套餐上,零成本
● 无需 API Key,随便填一个字符串就行
部署
需要 Node.js 18+ 和一个 Cloudflare 账号(免费)。
部署完 Wrangler 会给你一个 URL(形如
也可以从 npm 装:
用法示例
Python(OpenAI SDK)
cURL
适合什么场景
● 沉浸式翻译:21,000+ tok/s 的速度做翻译,网页秒翻
● 批量文本处理:摘要、改写、格式转换,小模型够用且极快
● 开发调试:需要一个免费的 OpenAI 兼容 API 来测试客户端
● 学习研究:了解 API 代理和协议转换的实现方式
链接
● 在线演示:https://cj2api.keh5.workers.dev (需科学上网)
● GitHub:GitHub - qingchencloud/cj2api: 将 ChatJimmy 转换为 OpenAI 兼容 API 的 Cloudflare Worker | 零成本部署,支持流式输出,自带测试页
● npm:https://www.npmjs.com/package/@qingchencloud/cj2api
----------------------
28 个帖子 - 17 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 晴天)
看到坛里有佬分享 ChatJimmy 的恐怖输出速度,实测最高跑到 21,874+ tok/s,按下回车的瞬间答案就糊脸上了,根本来不及反应!
体验了一下确实离谱。虽然跑的是 Llama 3.1-8B 小模型,回答质量一般,但这个速度拿来做翻译、摘要、格式转换简直是神器,这速度真是离谱到家了
唯一的问题:它只有网页端,没有 API!
所以我写了个 Cloudflare Worker,把 ChatJimmy 转成了标准的 OpenAI 兼容 API,开源出来给大家白嫖
链接
● 在线演示:https://cj2api.keh5.workers.dev (需科学上网)
● GitHub:GitHub - qingchencloud/cj2api: 将 ChatJimmy 转换为 OpenAI 兼容 API 的 Cloudflare Worker | 零成本部署,支持流式输出,自带测试页
● npm:https://www.npmjs.com/package/@qingchencloud/cj2api
----------------------
长图演示,点击查看 (点击了解更多详细信息)
ChatJimmy 为什么这么快?
ChatJimmy 背后是硅谷初创公司 Taalas,他们搞了一个很疯狂的事情:把模型参数直接"刻"进定制 ASIC 芯片(HC1)里。
传统方案里,GPU 算力很强,但模型参数存在 HBM 显存里,计算时需要来回搬运数据,90% 的时间和电力都浪费在"搬砖"上
Taalas 的思路是:干掉 HBM,让计算即存储、存储即计算。模型权重直接编码在芯片的金属层里,数据不需要搬运,推理速度直接起飞
几个关键数据:
● 实测 21,000+ tok/s(Llama 3.1 8B),官方标称 16,960,比 NVIDIA B200 快近 50 倍
● 构建成本仅为同等性能 GPU 方案的 1/20
● 采用 3-bit / 6-bit 混合量化 + LaRA 适配器补偿精度损失
● 定制新模型只需换两层金属掩模,流片周期压缩到 2 个月
简单说就是:别人在优化软件,Taalas 直接把软件变成了硬件。
CJ2API:把这个速度变成你的 API
我写的这个 Worker 做的事很简单:把 ChatJimmy 的私有协议转成标准 OpenAI
/v1/chat/completions 接口。● 兼容所有支持 OpenAI API 的客户端(沉浸式翻译、NextChat、LobeChat、OpenAI SDK……)
● 响应自带
usage 字段,实时统计 token 数量● 支持流式 (SSE) 和非流式输出
● 部署在 Cloudflare Workers 免费套餐上,零成本
● 无需 API Key,随便填一个字符串就行
部署
需要 Node.js 18+ 和一个 Cloudflare 账号(免费)。
git clone https://github.com/qingchencloud/cj2api.git
cd cj2api
npm install
npx wrangler login # 首次使用需登录 Cloudflare,浏览器会自动弹出授权页
npm run deploy
部署完 Wrangler 会给你一个 URL(形如
https://cj2api.xxx.workers.dev),直接拿去用。访问根路径有内置测试页,可以在线体验。也可以从 npm 装:
npm install @qingchencloud/cj2api
cd node_modules/@qingchencloud/cj2api
npx wrangler login
npm run deploy
注意: *.workers.dev 域名在国内需要科学上网才能访问。如果你有托管在 Cloudflare 的域名,可以在 Dashboard 里给 Worker 绑定自定义域名,走 CDN 国内可直连。用法示例
Python(OpenAI SDK)
from openai import OpenAI
client = OpenAI(
base_url="https://你的worker域名/v1",
api_key="any" # 随便填
)
response = client.chat.completions.create(
model="llama3.1-8B",
messages=[{"role": "user", "content": "用一句话总结量子力学"}]
)
print(response.choices[0].message.content)
cURL
curl -X POST https://你的worker域名/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.1-8B",
"messages": [{"role": "user", "content": "你好"}],
"stream": true
}'
适合什么场景
● 沉浸式翻译:21,000+ tok/s 的速度做翻译,网页秒翻
● 批量文本处理:摘要、改写、格式转换,小模型够用且极快
● 开发调试:需要一个免费的 OpenAI 兼容 API 来测试客户端
● 学习研究:了解 API 代理和协议转换的实现方式
链接
● 在线演示:https://cj2api.keh5.workers.dev (需科学上网)
● GitHub:GitHub - qingchencloud/cj2api: 将 ChatJimmy 转换为 OpenAI 兼容 API 的 Cloudflare Worker | 零成本部署,支持流式输出,自带测试页
● npm:https://www.npmjs.com/package/@qingchencloud/cj2api
----------------------
免责声明:仅供学习研究,不要拿去搞大规模请求。上游服务可用性和模型能力由 ChatJimmy 提供,与本项目无关灵感来源:15,726 tok/s!超极速模型,快来体验一下吧
28 个帖子 - 17 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 晴天)
看到高中混混朋友圈和我现在处境深夜有点感慨
转眼毕业2年混到过年躲出租屋吃挂面有点不知所措了,半夜有点胡思乱想就随便吐槽下,本人不是学习的料所以上的职高,我那个职高能离谱到什么程度呢,我们班那几个混混深夜喊上几个寝室的人组队翻墙去红灯区玩,班里2个溜大麻的,今天刷朋友圈看到大都混的比我好,他们中25年有几个结婚还喊我去捧个热闹,本来高中也只是个同学关系而已我混的太差也不好意思去就以工作忙拒了,唉,想想现在我24了大专除了进厂还有哪些行业选呢 🥲
52 个帖子 - 48 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 碇真嗣)
转眼毕业2年混到过年躲出租屋吃挂面有点不知所措了,半夜有点胡思乱想就随便吐槽下,本人不是学习的料所以上的职高,我那个职高能离谱到什么程度呢,我们班那几个混混深夜喊上几个寝室的人组队翻墙去红灯区玩,班里2个溜大麻的,今天刷朋友圈看到大都混的比我好,他们中25年有几个结婚还喊我去捧个热闹,本来高中也只是个同学关系而已我混的太差也不好意思去就以工作忙拒了,唉,想想现在我24了大专除了进厂还有哪些行业选呢 🥲
52 个帖子 - 48 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 碇真嗣)
宇树CEO王兴兴:当前机器人技术,接近10岁孩子水平
2 月 24 日消息,宇树科技创始人、首席执行官王兴兴做客微博科技栏目《科技漫谈》时,就公司人形机器人三度登上央视春晚的技术细节与行业发展前景发表看法。
"宇树科技 CEO 王兴兴:当前机器人技术阶段“非常接近 10 岁孩子水平”
2 月 17 日,王兴兴通过个人微博表示,“有朋友问春晚机器人进化速度有多快,我想说这取决于大家对 AI 的想象力。感谢所有支持我们的朋友们,祝每一个人梦想成真!”
81 个帖子 - 56 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: tiga6367)
2 月 24 日消息,宇树科技创始人、首席执行官王兴兴做客微博科技栏目《科技漫谈》时,就公司人形机器人三度登上央视春晚的技术细节与行业发展前景发表看法。
"宇树科技 CEO 王兴兴:当前机器人技术阶段“非常接近 10 岁孩子水平”
2 月 17 日,王兴兴通过个人微博表示,“有朋友问春晚机器人进化速度有多快,我想说这取决于大家对 AI 的想象力。感谢所有支持我们的朋友们,祝每一个人梦想成真!”
81 个帖子 - 56 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: tiga6367)
关于近期抽奖帖出现大量疑似脚本号的观察
写在开头:以下内容及账号截图发布均经始皇同意
各位佬友早上好。
一直以来,我都觉得L站内的氛围和环境是非常纯粹的,但在我昨晚发了个抽奖帖(【抽奖】Roll一张雷神加速器99小时时长卡 - 福利羊毛 - LINUX DO)之后,发现站内似乎混入了不少脚本号。如图:
我发现抽奖贴下面不乏这种嫌疑很大的账号,它们的特征高度一致:
● 头像为默认头像
● 用户名为数字或小写字母与数字混合
● 阅读量极大,但点赞获赞数少
● 回复大部分或者全部都是抽奖帖,且回复内容单一(例如“参与参与” / “参与一下”之类的)
● 没有发过任何话题
我觉得,如果是一个真实的活跃用户,在短时间内拥有如此巨大的阅读量,必定会或多或少地发帖交流或参与日常点赞。这些账号的行为模式显然极不合理。
此外,还有一个更为反常的现象:部分账号不仅完全符合上述脚本特征,它们之间甚至还会互相点赞。更夸张的是,它们的回复内容如出一辙,连回复的时间点都大差不差。如图:
作为刚入站不久的新人,我知道自己的影响力有限。但当初加入这里,就是因为觉得L站是一片简中难得的世外桃源,或者说始皇所说的“秘密花园”。我和大家一样,不希望这里的环境因为注册人数的增加而变得鱼龙混杂,而是真心希望能共同维护好这片净土。我已经向始皇反馈了这个问题,始皇也给予了积极的回复,表示会清理掉这些违规账号。发这个帖子也是想呼吁各位佬友,下次如果见到这类疑似脚本的账号,希望大家可以顺手点点举报。
另:发现有个佬做了个实验:【检测是否为人机 真人请勿参与】,现在已经关掉了,是个抽奖,标题是真人请勿参与,也炸出了一些人机(还有整活佬友 🤣
阅读完整话题
via LINUX DO - 热门话题 (author: Blindot)
写在开头:以下内容及账号截图发布均经始皇同意
各位佬友早上好。
一直以来,我都觉得L站内的氛围和环境是非常纯粹的,但在我昨晚发了个抽奖帖(【抽奖】Roll一张雷神加速器99小时时长卡 - 福利羊毛 - LINUX DO)之后,发现站内似乎混入了不少脚本号。如图:
我发现抽奖贴下面不乏这种嫌疑很大的账号,它们的特征高度一致:
● 头像为默认头像
● 用户名为数字或小写字母与数字混合
● 阅读量极大,但点赞获赞数少
● 回复大部分或者全部都是抽奖帖,且回复内容单一(例如“参与参与” / “参与一下”之类的)
● 没有发过任何话题
我觉得,如果是一个真实的活跃用户,在短时间内拥有如此巨大的阅读量,必定会或多或少地发帖交流或参与日常点赞。这些账号的行为模式显然极不合理。
此外,还有一个更为反常的现象:部分账号不仅完全符合上述脚本特征,它们之间甚至还会互相点赞。更夸张的是,它们的回复内容如出一辙,连回复的时间点都大差不差。如图:
作为刚入站不久的新人,我知道自己的影响力有限。但当初加入这里,就是因为觉得L站是一片简中难得的世外桃源,或者说始皇所说的“秘密花园”。我和大家一样,不希望这里的环境因为注册人数的增加而变得鱼龙混杂,而是真心希望能共同维护好这片净土。我已经向始皇反馈了这个问题,始皇也给予了积极的回复,表示会清理掉这些违规账号。发这个帖子也是想呼吁各位佬友,下次如果见到这类疑似脚本的账号,希望大家可以顺手点点举报。
另:发现有个佬做了个实验:【检测是否为人机 真人请勿参与】,现在已经关掉了,是个抽奖,标题是真人请勿参与,也炸出了一些人机(还有整活佬友 🤣
真诚、友善、团结、专业,共建你我引以为荣之社区。54 个帖子 - 40 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: Blindot)
再传喜报,阿里Coding Plan支持MiniMax-M2.5啦!
支持的模型
千问系列模型:
第三方模型:
至此,国产三剑客已经支持完毕,还在官网的佬可以放心冲啦
接下来看千问自家模型了
43 个帖子 - 37 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: jzjzle)
支持的模型
千问系列模型:
qwen3.5-plus、qwen3-max-2026-01-23、qwen3-coder-next、qwen3-coder-plus第三方模型:
MiniMax-M2.5、glm-5、glm-4.7、kimi-k2.5至此,国产三剑客已经支持完毕,还在官网的佬可以放心冲啦
接下来看千问自家模型了
43 个帖子 - 37 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: jzjzle)
【复工福利限售】纯血CC Max,每档充值金额限售50份,限时开抢,手慢无!!!
各位佬友好!🎉 开工第一天,HorseCoding 开启复工福利!!!
🔥开工福利 活动截止:2026年2月25日24:00(北京时间)
🔗 立即加入,抢占超值福利! 开启你的项目新征程!
👉️HorseCoding 官网: https://www.horsecoding.cc
详情请扫码入群:
每满300楼抽20个100刀中奖名额,即时开奖!!
176 个帖子 - 175 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: HorseCoding)
各位佬友好!🎉 开工第一天,HorseCoding 开启复工福利!!!
🔥开工福利 活动截止:2026年2月25日24:00(北京时间)
🔗 立即加入,抢占超值福利! 开启你的项目新征程!
👉️HorseCoding 官网: https://www.horsecoding.cc
详情请扫码入群:
每满300楼抽20个100刀中奖名额,即时开奖!!
176 个帖子 - 175 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: HorseCoding)
佬们个人所得税可以提前查看退税额度了
登录自己的个人所得税网站 下面是网址
https://etax.chinatax.gov.cn/
登录后选择
然后点击 “申报年度”
按 F12打开控制台
找到2025哪里 删除掉 disabled 然后关闭掉控制台选择 2025 点击确定即可。
建议只看不要提前进行办理退税 防止不必要的损失
104 个帖子 - 84 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: Zzw8421)
登录自己的个人所得税网站 下面是网址
https://etax.chinatax.gov.cn/
登录后选择
然后点击 “申报年度”
按 F12打开控制台
找到2025哪里 删除掉 disabled 然后关闭掉控制台选择 2025 点击确定即可。
建议只看不要提前进行办理退税 防止不必要的损失
104 个帖子 - 84 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: Zzw8421)
开始预约办税啦,天塌了 这么点钱还要补税
2025年度个税综合所得年度汇算清缴将于3月1日开始办理,为错峰办税、减少排队等待,税务部门已于2月25日(今天)开放预约功能。
✅️ 请及早完成以下操作:
1️、立即预约:登录“个人所得税”APP → 点击【2025综合所得年度汇算】 → 【去预约】 → 选择3月1日及之后的办理时段(越早预约可选日期越多!)。
2️、3月1日后:按预约时间完成汇算申报,核对信息后补税或申请退税。
⏰️ 温馨提示:
• 预约办理期限为3月1日至3月20日,建议提前预约!
• 3月21日后无需预约,但高峰期可能系统拥堵。
打开 自然人电子税务局,然后 F12 移除 2025 年 disabled 的标签,就可以选择 2025 年提前查看退税情况。
天塌了,还要补一千多 🫠
—————————————————— 补一下教程 ——————————————————
进入页面后,点击日期选择框(此时 2025 是禁用状态),点击 F12 打开控制台
打开后会显示 debugger 断点调试状态,可以点击右边的图标(如下图),禁用断点。也可以忽略不管继续往下走
接着选择 Elements 选项,然后点击最左边的箭头图标,移动鼠标到 2025 的位置
在 2025 年的标签里面双击 disabled 然后删除,接着点击 F12 关闭控制台就可以选择 2025 年了
231 个帖子 - 124 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 十六)
2025年度个税综合所得年度汇算清缴将于3月1日开始办理,为错峰办税、减少排队等待,税务部门已于2月25日(今天)开放预约功能。
✅️ 请及早完成以下操作:
1️、立即预约:登录“个人所得税”APP → 点击【2025综合所得年度汇算】 → 【去预约】 → 选择3月1日及之后的办理时段(越早预约可选日期越多!)。
2️、3月1日后:按预约时间完成汇算申报,核对信息后补税或申请退税。
⏰️ 温馨提示:
• 预约办理期限为3月1日至3月20日,建议提前预约!
• 3月21日后无需预约,但高峰期可能系统拥堵。
打开 自然人电子税务局,然后 F12 移除 2025 年 disabled 的标签,就可以选择 2025 年提前查看退税情况。
天塌了,还要补一千多 🫠
—————————————————— 补一下教程 ——————————————————
进入页面后,点击日期选择框(此时 2025 是禁用状态),点击 F12 打开控制台
打开后会显示 debugger 断点调试状态,可以点击右边的图标(如下图),禁用断点。也可以忽略不管继续往下走
接着选择 Elements 选项,然后点击最左边的箭头图标,移动鼠标到 2025 的位置
在 2025 年的标签里面双击 disabled 然后删除,接着点击 F12 关闭控制台就可以选择 2025 年了
231 个帖子 - 124 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 十六)