普通人用Claude Code实现10倍效率的底层逻辑 | 原文
上周我看到有人跟Claude Code搏斗了6个小时,最后得出结论:AI被高估了,输出全是垃圾。
问题出在哪?不在模型,在喂给它的东西。
过去一年我用AI交付了几十个系统,观察下来发现:那些获得惊人成果的人和中途放弃的人之间,差距只有一个——输入的质量决定输出的质量。
现在的模型已经强得离谱。如果你得到的是废话,问题在你自己。
+ 用功能思维取代产品思维
大多数人坐下来就打“帮我做一个XX应用”。Claude Code不知道你具体要什么,只能用假设填补空白,而这些假设往往是错的。
正确的做法是把产品拆成功能模块。
想做一个日程工具?先想清楚它由哪些部分组成:用户上传内容、系统分析处理、界面展示选项、触发相应动作。
然后一个一个来。做完功能一,测试,能用吗?再做功能二。每个模块验证通过后再叠加下一个。
这样你就不会在一个摇摇欲坠的地基上盖房子。
+ 让Claude Code采访你
与其告诉它你想要什么,不如反过来,让它不断提问直到完全理解你的需求。
我用的提示词是这样的:“我想做某某东西,请像采访一样问我所有细节,包括技术决策、设计选择、边界情况,用提问工具持续追问,直到你完全理解我要什么。”
接下来会有点烦人,问题一轮接一轮。
上次我做一个线索分发系统,Claude Code问了我:触发条件是表单提交还是webhook?需要从线索中提取哪些数据?评分标准是什么?低于阈值怎么处理?通知走Slack还是邮件?响应时间要求多少?
这些问题你可能根本没想过。这正是关键所在。
我曾经花45分钟做这种采访式对话,结果省下了14个小时的调试时间,因为边界情况在写代码之前就被发现了。
+ 先慢后快,手动优先于自动
每个人都想要自动化,设置好就不用管。但如果你从没手动做过一件事,自动化会把你坑惨。
原因很简单:你还不知道自己在自动化什么。
一步步手动构建的过程中,你会感知到节奏,看到哪里容易出问题,培养出对“好”和“能用但其实是垃圾”之间差异的直觉。
跳过这一步,你自动化的就是一个有缺陷的流程,而且要浪费很多天和很多token才能意识到问题。
那些在社交媒体上秀自动化工作流的人,都是先靠手动构建积累了足够经验,才获得了自动化的资格。
+ 管理你的上下文窗口
你开始一个会话,一切顺利,输出很精准。然后质量开始下滑,Claude Code开始忘记一小时前你告诉它的事情。
这是上下文过载了。
当你用掉大约一半的上下文窗口时,开一个新会话。但新会话怎么知道之前做了什么?靠文档。
每完成一个功能就记录下来,每个决策都写进去。新会话读取这个文件,就能无缝接续。
+ 工具焦虑是伪命题
大家都在讨论MCP、插件、自定义配置文件。这些东西没问题,但我敢保证它们不是你产品做不出来的原因。
你的计划才是原因。
完美的工具配置加上糟糕的计划,产出的是垃圾。基础配置加上优秀的计划,产出的是真东西。
把精力投入到输入端,工具是次要的。
+ 品味才是真正的护城河
构建东西越来越容易,任何有网络的人都能用上两年前不存在的工具。创造一个能跑的东西,门槛几乎为零。
那为什么不是人人都在出产品?
差距在品味。
品味是知道该做什么,知道你的东西和市面上50个同类产品有什么不同,知道什么时候感觉对了、什么时候只是技术上正确但毫无记忆点。
我见过有人做了一个跑步应用,根据你的情绪生成路线。压力大?愤怒?平静?应用读取你的状态,创造匹配的路径。
这不是技术成就,一千个人都能实现这个机制。区别在于有人坐下来认真思考:什么能让这个东西有趣?什么还没被做过?然后在每一步都做出有意识的选择。
这就是品味。Claude Code给不了你这个。
AI放大的是你投入的一切。模糊的思考产出模糊的结果,有意识的思考产出有意识的作品。
几个月前想明白这些的人,现在已经在收割红利。今天想明白的人,还来得及。
上周我看到有人跟Claude Code搏斗了6个小时,最后得出结论:AI被高估了,输出全是垃圾。
问题出在哪?不在模型,在喂给它的东西。
过去一年我用AI交付了几十个系统,观察下来发现:那些获得惊人成果的人和中途放弃的人之间,差距只有一个——输入的质量决定输出的质量。
现在的模型已经强得离谱。如果你得到的是废话,问题在你自己。
+ 用功能思维取代产品思维
大多数人坐下来就打“帮我做一个XX应用”。Claude Code不知道你具体要什么,只能用假设填补空白,而这些假设往往是错的。
正确的做法是把产品拆成功能模块。
想做一个日程工具?先想清楚它由哪些部分组成:用户上传内容、系统分析处理、界面展示选项、触发相应动作。
然后一个一个来。做完功能一,测试,能用吗?再做功能二。每个模块验证通过后再叠加下一个。
这样你就不会在一个摇摇欲坠的地基上盖房子。
+ 让Claude Code采访你
与其告诉它你想要什么,不如反过来,让它不断提问直到完全理解你的需求。
我用的提示词是这样的:“我想做某某东西,请像采访一样问我所有细节,包括技术决策、设计选择、边界情况,用提问工具持续追问,直到你完全理解我要什么。”
接下来会有点烦人,问题一轮接一轮。
上次我做一个线索分发系统,Claude Code问了我:触发条件是表单提交还是webhook?需要从线索中提取哪些数据?评分标准是什么?低于阈值怎么处理?通知走Slack还是邮件?响应时间要求多少?
这些问题你可能根本没想过。这正是关键所在。
我曾经花45分钟做这种采访式对话,结果省下了14个小时的调试时间,因为边界情况在写代码之前就被发现了。
+ 先慢后快,手动优先于自动
每个人都想要自动化,设置好就不用管。但如果你从没手动做过一件事,自动化会把你坑惨。
原因很简单:你还不知道自己在自动化什么。
一步步手动构建的过程中,你会感知到节奏,看到哪里容易出问题,培养出对“好”和“能用但其实是垃圾”之间差异的直觉。
跳过这一步,你自动化的就是一个有缺陷的流程,而且要浪费很多天和很多token才能意识到问题。
那些在社交媒体上秀自动化工作流的人,都是先靠手动构建积累了足够经验,才获得了自动化的资格。
+ 管理你的上下文窗口
你开始一个会话,一切顺利,输出很精准。然后质量开始下滑,Claude Code开始忘记一小时前你告诉它的事情。
这是上下文过载了。
当你用掉大约一半的上下文窗口时,开一个新会话。但新会话怎么知道之前做了什么?靠文档。
每完成一个功能就记录下来,每个决策都写进去。新会话读取这个文件,就能无缝接续。
+ 工具焦虑是伪命题
大家都在讨论MCP、插件、自定义配置文件。这些东西没问题,但我敢保证它们不是你产品做不出来的原因。
你的计划才是原因。
完美的工具配置加上糟糕的计划,产出的是垃圾。基础配置加上优秀的计划,产出的是真东西。
把精力投入到输入端,工具是次要的。
+ 品味才是真正的护城河
构建东西越来越容易,任何有网络的人都能用上两年前不存在的工具。创造一个能跑的东西,门槛几乎为零。
那为什么不是人人都在出产品?
差距在品味。
品味是知道该做什么,知道你的东西和市面上50个同类产品有什么不同,知道什么时候感觉对了、什么时候只是技术上正确但毫无记忆点。
我见过有人做了一个跑步应用,根据你的情绪生成路线。压力大?愤怒?平静?应用读取你的状态,创造匹配的路径。
这不是技术成就,一千个人都能实现这个机制。区别在于有人坐下来认真思考:什么能让这个东西有趣?什么还没被做过?然后在每一步都做出有意识的选择。
这就是品味。Claude Code给不了你这个。
AI放大的是你投入的一切。模糊的思考产出模糊的结果,有意识的思考产出有意识的作品。
几个月前想明白这些的人,现在已经在收割红利。今天想明白的人,还来得及。
❤5
从招聘启事读懂Anthropic的野心:代码只是起点 | 帖子
有人花时间把Anthropic所有招聘岗位读了一遍,发现这家公司正在布局的东西远比我们想象的要大。
他们用ABCDE五个字母总结了五大方向:
Audio,音频。尽管Anthropic一直以文本见长,但他们正在招人做语音和音频的理解与生成,包括语音语言模型和音频扩散模型。
Biology,生物。目标是将生命科学的研究进度提升10倍。
Cybersecurity,网络安全。组建数据、强化学习和工程团队,打造AI驱动的网络安全产品。
Discovery,发现。构建AI科学家,解决“科学通用人工智能”问题。
Eyes,视觉。提升Claude的视觉理解和空间感知能力。
这份招聘清单透露的信息量很大。
首先,Anthropic显然已经跳出了“模型公司”的定位。音频、生物、安全、科学发现,这些领域都需要系统具备推理、记忆和在真实世界约束下行动的能力,单纯生成文本远远不够。
其次,编程能力只是他们的入场券。真正的战场在那些混乱、复杂、充满不确定性的现实领域。他们在编程上建立的优势,正在被系统性地迁移到其他垂直场景。
有人评论说,这家公司更像是一个藏在创业公司外壳里的综合性研究机构。这个观察很准确。他们的布局逻辑清晰:找到AI能够产生指数级影响的领域,然后重兵投入。
视觉和空间能力的提升尤其值得关注。现在大多数知识工具本质上是“盲”的,它们能读文本,但对空间关系、视觉上下文毫无感知。如果Claude能真正理解空间关系,很多应用场景会被彻底改写。
还有一点被反复提及:Anthropic几乎没有任何drama。零内斗,零八卦,纯粹专注于构建。在这个行业里,这本身就是一种稀缺的竞争力。
当OpenAI还在考虑往聊天里加广告的时候,Anthropic已经在布局下一代全栈智能系统了。
AGI可能比我们以为的更近。
有人花时间把Anthropic所有招聘岗位读了一遍,发现这家公司正在布局的东西远比我们想象的要大。
他们用ABCDE五个字母总结了五大方向:
Audio,音频。尽管Anthropic一直以文本见长,但他们正在招人做语音和音频的理解与生成,包括语音语言模型和音频扩散模型。
Biology,生物。目标是将生命科学的研究进度提升10倍。
Cybersecurity,网络安全。组建数据、强化学习和工程团队,打造AI驱动的网络安全产品。
Discovery,发现。构建AI科学家,解决“科学通用人工智能”问题。
Eyes,视觉。提升Claude的视觉理解和空间感知能力。
这份招聘清单透露的信息量很大。
首先,Anthropic显然已经跳出了“模型公司”的定位。音频、生物、安全、科学发现,这些领域都需要系统具备推理、记忆和在真实世界约束下行动的能力,单纯生成文本远远不够。
其次,编程能力只是他们的入场券。真正的战场在那些混乱、复杂、充满不确定性的现实领域。他们在编程上建立的优势,正在被系统性地迁移到其他垂直场景。
有人评论说,这家公司更像是一个藏在创业公司外壳里的综合性研究机构。这个观察很准确。他们的布局逻辑清晰:找到AI能够产生指数级影响的领域,然后重兵投入。
视觉和空间能力的提升尤其值得关注。现在大多数知识工具本质上是“盲”的,它们能读文本,但对空间关系、视觉上下文毫无感知。如果Claude能真正理解空间关系,很多应用场景会被彻底改写。
还有一点被反复提及:Anthropic几乎没有任何drama。零内斗,零八卦,纯粹专注于构建。在这个行业里,这本身就是一种稀缺的竞争力。
当OpenAI还在考虑往聊天里加广告的时候,Anthropic已经在布局下一代全栈智能系统了。
AGI可能比我们以为的更近。
❤2
NotebookLM:被严重低估的AI学习神器 | 文档
谷歌最近为NotebookLM推出了一个官方入门笔记本,用户可以直接在对话中询问“如何用NotebookLM帮我完成某个项目”,获得针对性的使用指导。
这款工具为什么值得关注?
最被忽视的核心能力:NotebookLM只从你上传的资料中提取信息,绝不凭空编造。对于研究工作来说,这意味着每一条引用都可以追溯、可以信任。一个实用技巧是上传比你预期更多的资料,文档之间的交叉引用才是真正的魔法所在。
功能远比想象中强大:上传一份文件,它能自动生成闪卡、思维导图、音频摘要,甚至一期播客。对学生而言,这几乎重新定义了复习方式。
有位用户分享了一个触动人心的故事:他花了四十多年才明白,学会如何学习本身就是一项关键技能。传统教育体系的单一模式并不适合所有人,尤其对ADHD群体来说更是如此。直到他发现NotebookLM,经过反复摸索,终于找到了属于自己的学习节奏。
这或许揭示了AI工具更深层的价值:它不是要取代思考,而是帮助每个人找到最适合自己的认知路径。当工具足够灵活,学习就不再是痛苦的适应,而是自然的探索。
有用户调侃说,很多人已经把NotebookLM当成论文合著者在用了,却从没读过说明书。这恰恰说明好工具的特质:上手门槛低,但天花板足够高。
谷歌最近为NotebookLM推出了一个官方入门笔记本,用户可以直接在对话中询问“如何用NotebookLM帮我完成某个项目”,获得针对性的使用指导。
这款工具为什么值得关注?
最被忽视的核心能力:NotebookLM只从你上传的资料中提取信息,绝不凭空编造。对于研究工作来说,这意味着每一条引用都可以追溯、可以信任。一个实用技巧是上传比你预期更多的资料,文档之间的交叉引用才是真正的魔法所在。
功能远比想象中强大:上传一份文件,它能自动生成闪卡、思维导图、音频摘要,甚至一期播客。对学生而言,这几乎重新定义了复习方式。
有位用户分享了一个触动人心的故事:他花了四十多年才明白,学会如何学习本身就是一项关键技能。传统教育体系的单一模式并不适合所有人,尤其对ADHD群体来说更是如此。直到他发现NotebookLM,经过反复摸索,终于找到了属于自己的学习节奏。
这或许揭示了AI工具更深层的价值:它不是要取代思考,而是帮助每个人找到最适合自己的认知路径。当工具足够灵活,学习就不再是痛苦的适应,而是自然的探索。
有用户调侃说,很多人已经把NotebookLM当成论文合著者在用了,却从没读过说明书。这恰恰说明好工具的特质:上手门槛低,但天花板足够高。
❤3
50小时,从零到能训练大语言模型 | 帖子 |#机器学习 #指南
这是一份经过验证的机器学习工程师养成指南。作者教过数百万人编程,这套路径是他总结出的最优解。
先说一个残酷的事实:大多数人把技术视频当Netflix看,被动观看,随手记几笔,一周后忘得干干净净。这种学习方式注定失败。
真正有效的方法是两遍学习法。
第一遍:纯粹观看。不记笔记,不暂停,不跟着敲代码。目标是在脑中建立知识的整体框架,理解概念之间的关联。你在搭建一个脚手架,细节稍后再填充。
第二遍:主动学习。打开笔记本,打开代码编辑器,开始真正的学习。频繁暂停,用自己的话重述概念,亲手敲出每一行代码。然后打破它,修改参数看看会发生什么,有想法就去尝试。第二遍的时间通常是视频时长的两到三倍,这才是学习真正发生的地方。
那些成为顶尖ML工程师的人,并不比你聪明。他们只是在别人用两倍速刷视频时,进行着这种刻意练习。
关于ML工程师的定位,很多人存在误解。ML工程师的核心工作是训练和微调模型、构建数据管道、将模型部署到生产环境、优化速度和成本、监控模型性能。你需要掌握的是Python编程、足够理解原理的线性代数和微积分、神经网络的机械运作方式、Transformer架构,以及用代码实现这一切的能力。
学习路径分为三个阶段。
第一阶段用3Blue1Brown的视频建立直觉,大约需要10到15小时。Grant Sanderson是互联网上最好的数学教育者,他的神经网络系列能让抽象概念变得可视化。从神经网络基础、梯度下降、反向传播,到大语言模型和Transformer架构,这些视频会给你一个比大多数人都清晰的心智模型。
第二阶段是Andrej Karpathy的课程,需要30到40小时。Karpathy是OpenAI创始成员、特斯拉前AI高级总监,他的课程教你真正动手构建。你会从零开始实现自动微分引擎micrograd,构建字符级语言模型makemore,最终亲手搭建GPT。这个过程中,你会理解反向传播到大多数从业者永远达不到的深度。特别是那个构建GPT的视频,让成千上万人真正理解了现代AI的工作原理。
第三阶段是补充视频,大约5小时,用于加深对LLM整体训练流程的理解,包括预训练、监督微调、强化学习,以及如何思考模型的幻觉和工具使用。
总计约50小时的专注学习。
这里有一个值得深思的点:所有这些顶级资源都是免费的,就在YouTube上。真正稀缺的从来不是信息,而是愿意进行刻意练习的决心。
另一个现实是,学完这些能让你理解现代AI的底层原理,但要成为真正的ML工程师,还需要在实际项目中积累经验。理论和实践之间的鸿沟,只能通过不断构建真实系统来跨越。
最好的学习者不会等待完美的课程或合适的训练营。他们从最好的免费资源开始,然后投入刻意练习。
开始看,开始建。
这是一份经过验证的机器学习工程师养成指南。作者教过数百万人编程,这套路径是他总结出的最优解。
先说一个残酷的事实:大多数人把技术视频当Netflix看,被动观看,随手记几笔,一周后忘得干干净净。这种学习方式注定失败。
真正有效的方法是两遍学习法。
第一遍:纯粹观看。不记笔记,不暂停,不跟着敲代码。目标是在脑中建立知识的整体框架,理解概念之间的关联。你在搭建一个脚手架,细节稍后再填充。
第二遍:主动学习。打开笔记本,打开代码编辑器,开始真正的学习。频繁暂停,用自己的话重述概念,亲手敲出每一行代码。然后打破它,修改参数看看会发生什么,有想法就去尝试。第二遍的时间通常是视频时长的两到三倍,这才是学习真正发生的地方。
那些成为顶尖ML工程师的人,并不比你聪明。他们只是在别人用两倍速刷视频时,进行着这种刻意练习。
关于ML工程师的定位,很多人存在误解。ML工程师的核心工作是训练和微调模型、构建数据管道、将模型部署到生产环境、优化速度和成本、监控模型性能。你需要掌握的是Python编程、足够理解原理的线性代数和微积分、神经网络的机械运作方式、Transformer架构,以及用代码实现这一切的能力。
学习路径分为三个阶段。
第一阶段用3Blue1Brown的视频建立直觉,大约需要10到15小时。Grant Sanderson是互联网上最好的数学教育者,他的神经网络系列能让抽象概念变得可视化。从神经网络基础、梯度下降、反向传播,到大语言模型和Transformer架构,这些视频会给你一个比大多数人都清晰的心智模型。
第二阶段是Andrej Karpathy的课程,需要30到40小时。Karpathy是OpenAI创始成员、特斯拉前AI高级总监,他的课程教你真正动手构建。你会从零开始实现自动微分引擎micrograd,构建字符级语言模型makemore,最终亲手搭建GPT。这个过程中,你会理解反向传播到大多数从业者永远达不到的深度。特别是那个构建GPT的视频,让成千上万人真正理解了现代AI的工作原理。
第三阶段是补充视频,大约5小时,用于加深对LLM整体训练流程的理解,包括预训练、监督微调、强化学习,以及如何思考模型的幻觉和工具使用。
总计约50小时的专注学习。
这里有一个值得深思的点:所有这些顶级资源都是免费的,就在YouTube上。真正稀缺的从来不是信息,而是愿意进行刻意练习的决心。
另一个现实是,学完这些能让你理解现代AI的底层原理,但要成为真正的ML工程师,还需要在实际项目中积累经验。理论和实践之间的鸿沟,只能通过不断构建真实系统来跨越。
最好的学习者不会等待完美的课程或合适的训练营。他们从最好的免费资源开始,然后投入刻意练习。
开始看,开始建。
❤2
学习的范式转变:AI时代的顶层学习法 | 原文
你接受的传统教育模式,本质上是为教师的便利而设计的,而非为学习者优化。这套体系可能让你浪费了数年时间。
AI已经彻底打破了学习的门槛。你不再需要“许可”去学习新领域,你需要的是“动机”和正确的方法。
+ 传统模式的根本问题
传统的自下而上学习法强迫你花费数月钻研那些你并不确定是否需要的基础知识。想学机器学习?先学数学。想学深度学习?先学Python。你必须在每一层“交够学费”才能进入下一层。
在学校里情况更糟。老师几乎不会解释为什么你要花整整一学期学某门课。很多时候这也怪不得他们,因为确实没有充分的理由。
这种模式存在的原因很简单:过去的学习资源默认你具备某种程度的前置知识。十年前你拿起一本深度学习的书,它假设你已经掌握了必要的数学和编程能力。作者不愿意从零开始讲起,所以学A之前必须先学B、C、D。
这是为教师的便利优化的,不是为学习者。
问题在于,自下而上的学习效率极低。你花了几个月甚至几年积累知识,却看不到明确的应用场景。等你终于接触到真正的问题时,你已经忘了一半。
+ 顶层学习法:从问题出发
与之相反的是自上而下的学习。你从一个真正感兴趣的实际问题开始,边做边学,撞墙了再去补相应的基础知识。
这种方法过去几乎不可能大规模实现。你需要一个专家随时在旁边指导你缺少哪些基础,告诉你该往哪个方向学习。学术界对此一直不太认可。
但现在,这个约束不存在了。
那个原本不存在的专家,现在每个人只需花20美元订阅ChatGPT或Claude就能获得。它虽然不完美,但已经足够好,足以从根本上改变谁能学什么、能学多快。
Gabriel Petersson就是一个活生生的例子。他是瑞典小镇的高中辍学生,想弄懂视频AI模型的工作原理。他让ChatGPT解释基础概念并写出扩散模型的代码,一开始完全看不懂,就不断追问:“这部分是做什么的?”“用12岁小孩能懂的话解释一下”“画个图给我看”。
他每天这样问上百次,递归式地填补知识空白。几年后,他被OpenAI录用参与Sora项目,做着传统上需要博士学位的工作。
+ 一项没人教你的元技能
顶层学习有一个前提:你必须能够识别自己什么时候不理解某个东西。
这听起来简单,其实不然。
面对陌生概念时,大多数人要么假装理解继续往下走,要么沮丧放弃。很少有人能坦然面对自己的困惑,搞清楚究竟是哪里不懂,然后提出精准的问题。
这就是“知道自己不知道什么”的元技能。困惑其实是一个信号,意味着你即将学到新东西。真正的顿悟只会在你直面不理解的不适感时发生。
+ 保持控制权
整个过程的核心是你必须保持主动权。你不需要另一个传统老师来决定你该学什么、怎么学、学到什么程度算够。
关键在于能够从AI那里提取你想要的东西。大多数人在这方面做得很糟糕。
AI天生倾向于迎合普通用户。如果你只是简单地问“用简单的话解释强化学习”,你得到的只是一段通用的教科书式回答。
你应该这样问:我想学强化学习。告诉我它为什么存在,解决什么问题,之前的替代方案是什么。我知道智能体通过行动获得奖励,但我不理解它具体是怎么学会哪些行动是好的。在连续的10个动作中,它怎么知道是哪个导致了奖励?用直觉化的方式讲解背后的数学,像对12岁孩子说话那样,并给我一个具体的例子。
精确、具体地表达你想要什么,不要把主动权交给别人。这是一项你会逐渐精进的技能。
+ 两种使用AI的模式
第一种是把AI当作劳动力替代品。“帮我写一篇文章”、“帮我做作业”、“帮我写代码”。短期看这或许有好处,但长期会削弱你的思考能力。把思考、困惑和脑力劳动都外包给AI,最终会让你的认知能力退化。
第二种是把AI当作学习导师。这才是产生超常结果的方式。这种模式的意义在于压缩从困惑到清晰的时间。
+ 递归下降学习法
具体框架如下:
第零步:理解为什么。在任何解释和定义之前,你必须真正理解所学内容的起源。它为什么存在?解决什么问题?实际用在哪里?之前的替代方案是什么?
第一步:从问题而非课程开始。不要问AI“学强化学习该学什么”,而是问“我可以用强化学习做什么项目?然后帮我写代码。”
第二步:让它运行起来。运行代码,观察结果,看可视化效果。如果是一个使用RL智能体的Python游戏,去玩它。
第三步:回讲(费曼技巧)。当你开始阅读代码并理解各个部分时,把你的理解解释给AI听,问它你的理解是否正确。这一步至关重要。
第四步:递归下降。在反复对话中完善理解后,问AI“这个概念依赖哪些基础知识?”然后对那些基础重复整个过程。
第五步:泛化。当你深入理解了某个东西,问“它还能解决哪些问题?有什么局限性?在情况X下我会怎么做?”这一步帮你填补空白。
+ 这个方法不能解决的问题
AI无法给你行动力。如果你需要有人拿着鞭子逼你学习,你需要解决的是比“如何学习”更根本的问题。
AI无法教你品味。知道如何构建一个RL智能体,和知道哪些问题值得解决、哪些方法是优雅的、哪些代码是可维护的,这是不同的事情。这些属于人类特有的判断力。
AI可能自信地犯错。所以你需要结合YouTube视频、论文、书籍、博客等人类创作的资源来验证和补充。
你仍然需要付出努力。跳过不必要的基础知识,不是为了少干活,而是为了把精力用在正确的地方。AI消除的是摩擦,不是工作本身。
+ 分化正在发生
我认为接下来五年会出现这样的分化:训练自己用递归下降方式学习的人,将成为唯一能够高效学习、跟上科技飞速发展步伐的群体。而坚持传统方法、拒绝与AI协作学习的人,会逐渐变得无关紧要。不是因为那些方法不管用,而是因为他们的速度无法与前者竞争。
你接受的传统教育模式,本质上是为教师的便利而设计的,而非为学习者优化。这套体系可能让你浪费了数年时间。
AI已经彻底打破了学习的门槛。你不再需要“许可”去学习新领域,你需要的是“动机”和正确的方法。
+ 传统模式的根本问题
传统的自下而上学习法强迫你花费数月钻研那些你并不确定是否需要的基础知识。想学机器学习?先学数学。想学深度学习?先学Python。你必须在每一层“交够学费”才能进入下一层。
在学校里情况更糟。老师几乎不会解释为什么你要花整整一学期学某门课。很多时候这也怪不得他们,因为确实没有充分的理由。
这种模式存在的原因很简单:过去的学习资源默认你具备某种程度的前置知识。十年前你拿起一本深度学习的书,它假设你已经掌握了必要的数学和编程能力。作者不愿意从零开始讲起,所以学A之前必须先学B、C、D。
这是为教师的便利优化的,不是为学习者。
问题在于,自下而上的学习效率极低。你花了几个月甚至几年积累知识,却看不到明确的应用场景。等你终于接触到真正的问题时,你已经忘了一半。
+ 顶层学习法:从问题出发
与之相反的是自上而下的学习。你从一个真正感兴趣的实际问题开始,边做边学,撞墙了再去补相应的基础知识。
这种方法过去几乎不可能大规模实现。你需要一个专家随时在旁边指导你缺少哪些基础,告诉你该往哪个方向学习。学术界对此一直不太认可。
但现在,这个约束不存在了。
那个原本不存在的专家,现在每个人只需花20美元订阅ChatGPT或Claude就能获得。它虽然不完美,但已经足够好,足以从根本上改变谁能学什么、能学多快。
Gabriel Petersson就是一个活生生的例子。他是瑞典小镇的高中辍学生,想弄懂视频AI模型的工作原理。他让ChatGPT解释基础概念并写出扩散模型的代码,一开始完全看不懂,就不断追问:“这部分是做什么的?”“用12岁小孩能懂的话解释一下”“画个图给我看”。
他每天这样问上百次,递归式地填补知识空白。几年后,他被OpenAI录用参与Sora项目,做着传统上需要博士学位的工作。
+ 一项没人教你的元技能
顶层学习有一个前提:你必须能够识别自己什么时候不理解某个东西。
这听起来简单,其实不然。
面对陌生概念时,大多数人要么假装理解继续往下走,要么沮丧放弃。很少有人能坦然面对自己的困惑,搞清楚究竟是哪里不懂,然后提出精准的问题。
这就是“知道自己不知道什么”的元技能。困惑其实是一个信号,意味着你即将学到新东西。真正的顿悟只会在你直面不理解的不适感时发生。
+ 保持控制权
整个过程的核心是你必须保持主动权。你不需要另一个传统老师来决定你该学什么、怎么学、学到什么程度算够。
关键在于能够从AI那里提取你想要的东西。大多数人在这方面做得很糟糕。
AI天生倾向于迎合普通用户。如果你只是简单地问“用简单的话解释强化学习”,你得到的只是一段通用的教科书式回答。
你应该这样问:我想学强化学习。告诉我它为什么存在,解决什么问题,之前的替代方案是什么。我知道智能体通过行动获得奖励,但我不理解它具体是怎么学会哪些行动是好的。在连续的10个动作中,它怎么知道是哪个导致了奖励?用直觉化的方式讲解背后的数学,像对12岁孩子说话那样,并给我一个具体的例子。
精确、具体地表达你想要什么,不要把主动权交给别人。这是一项你会逐渐精进的技能。
+ 两种使用AI的模式
第一种是把AI当作劳动力替代品。“帮我写一篇文章”、“帮我做作业”、“帮我写代码”。短期看这或许有好处,但长期会削弱你的思考能力。把思考、困惑和脑力劳动都外包给AI,最终会让你的认知能力退化。
第二种是把AI当作学习导师。这才是产生超常结果的方式。这种模式的意义在于压缩从困惑到清晰的时间。
+ 递归下降学习法
具体框架如下:
第零步:理解为什么。在任何解释和定义之前,你必须真正理解所学内容的起源。它为什么存在?解决什么问题?实际用在哪里?之前的替代方案是什么?
第一步:从问题而非课程开始。不要问AI“学强化学习该学什么”,而是问“我可以用强化学习做什么项目?然后帮我写代码。”
第二步:让它运行起来。运行代码,观察结果,看可视化效果。如果是一个使用RL智能体的Python游戏,去玩它。
第三步:回讲(费曼技巧)。当你开始阅读代码并理解各个部分时,把你的理解解释给AI听,问它你的理解是否正确。这一步至关重要。
第四步:递归下降。在反复对话中完善理解后,问AI“这个概念依赖哪些基础知识?”然后对那些基础重复整个过程。
第五步:泛化。当你深入理解了某个东西,问“它还能解决哪些问题?有什么局限性?在情况X下我会怎么做?”这一步帮你填补空白。
+ 这个方法不能解决的问题
AI无法给你行动力。如果你需要有人拿着鞭子逼你学习,你需要解决的是比“如何学习”更根本的问题。
AI无法教你品味。知道如何构建一个RL智能体,和知道哪些问题值得解决、哪些方法是优雅的、哪些代码是可维护的,这是不同的事情。这些属于人类特有的判断力。
AI可能自信地犯错。所以你需要结合YouTube视频、论文、书籍、博客等人类创作的资源来验证和补充。
你仍然需要付出努力。跳过不必要的基础知识,不是为了少干活,而是为了把精力用在正确的地方。AI消除的是摩擦,不是工作本身。
+ 分化正在发生
我认为接下来五年会出现这样的分化:训练自己用递归下降方式学习的人,将成为唯一能够高效学习、跟上科技飞速发展步伐的群体。而坚持传统方法、拒绝与AI协作学习的人,会逐渐变得无关紧要。不是因为那些方法不管用,而是因为他们的速度无法与前者竞争。
👍2❤1
如何打造病毒式传播的Vibe Coding应用 | 原文
四个月前,我不用AI写代码,X上只有30个粉丝。如今,我靠公开构建积累了超过5000万次曝光。
很多人问我:怎么能持续做出爆款应用?
老实说,没有什么单一秘诀。是很多小事叠加起来的结果。
+ 关于Vibe Coding的误解
我曾是那种认为Vibe Coding只是AI垃圾代码的工程师。后来发现自己错了。
Vibe Coding的核心不是什么都不懂,而是消除摩擦,让你能构建更多东西。我做的项目里,90%以上的代码都是AI写的。目标不是理解每一行代码,而是在一天内把想法变成能用的东西。
+ 如何找到爆款创意
好点子不会凭空出现。要理解好内容,你得先消费内容。
刷信息流时,留意三件事:什么让你停下滑动、什么让你好奇、什么让你产生情绪共鸣。把这些记下来。
目的不是抄袭爆款,而是学习什么让好内容成为好内容。
有个帖子我获得了50万以上的曝光。我观察到几周内有多个关于计算机视觉和three.js的vibe coding帖子火了。然后我把这个观察和个人经历结合起来。
学编程时,我有个学校项目是展示分形图形,评判标准之一是“能不能让人感到惊艳”。这给了我灵感,做了一个可以用手势控制的分形模拟器。我对视觉效果有信心,因为我亲身体验过那种惊艳感。
+ 我的技术栈和工具
软件工程就是在各种权衡中做选择。我的建议很简单:快速发布,别在工具选择上纠结太久。
Rork是我主要的移动端vibe coding工具。我能直接在手机上开发,跳过本地环境配置,随时给朋友展示。很多想法是在健身房冒出来的,以前写在备忘录里回家就忘了。现在我能当场用Rork做出原型,尝试更多想法。
Claude Code用来处理其他几乎所有事情。升级到Max版后没了使用限制,可以并行运行多个Agent,测试想法更快,不用担心配额耗尽。
工具太多容易让人不知所措。我的建议是:试用几款有免费试用的工具,选2到3个你最喜欢的,然后深度学习它们。只有遇到硬性限制时才换工具。
+ 让设计好看的实用技巧
我不是设计专家,但知道很多人和我一样没有设计背景。
第一,多用设计参考。Screensdesign看引导流程,Dribbble和Pinterest找布局灵感。
第二,尽早建立一致性。创建一个共享的样式常量文件,所有页面从同一个文件调用。代码更好维护,应用也显得更干净、更有设计感。
第三,用AI找设计问题。每次做完新页面,我会发给ChatGPT问:对比同类头部应用能改进什么、颜色搭配有没有冲突、间距是否看起来不对劲。大概60%的时候能得到有用的反馈。这种反馈循环会积累,你接触好设计越多,品味自然会提升。
+ 如何写出爆款帖子
病毒式传播不是随机的,是可以复制的。
我有个帖子效果很好,原因是两点:开头就展示有趣的功能,前几秒就呈现惊艳效果。这让人看到最后。观看时间越长,算法就会推给更多人。我还在评论区加了使用的工具和模型,增加收藏量,最后附上体验链接。
另一个效果好的系列是“构建心理健康应用的第X天”。很少有人持续在心理健康领域发帖,所以这个开头让人一眼就认出是我的内容。
结构要保持简洁。我经常看到帖子堆满技术细节,但说实话大多数人并不关心。真正感兴趣的人会私信你。配图也很重要,它让帖子在时间线上占据更多空间,光这一点就能增加有人停下来看的概率。我用Canva做简洁的截图,直接展示正在演示的功能。
+ 让帖子关于读者,而非你自己
很多产品帖子失败的原因是只关注业务、功能、技术栈,却没有关注读者。
与其让帖子讲你构建了什么,不如框架成读者能共鸣的场景,或者你希望产品让他们产生的感受。
举个例子,别写“我做了一个情绪追踪的心理健康应用”,试试“表面说自己还好,内心其实在崩溃。我做了个应用,几秒钟就能记录你的真实情绪。”
前者是功能说明,后者让读者代入熟悉的场景,产生共鸣,进而互动。
+ 最后一点
去做那些你真正感兴趣的东西。
当你在乎自己构建的东西,这会体现在帖子里、演示里、你谈论它的方式里。人们能感受到你是不是在享受这个过程。我觉得这就是写一次爆款和反复做出爆款之间的关键区别。
四个月前,我不用AI写代码,X上只有30个粉丝。如今,我靠公开构建积累了超过5000万次曝光。
很多人问我:怎么能持续做出爆款应用?
老实说,没有什么单一秘诀。是很多小事叠加起来的结果。
+ 关于Vibe Coding的误解
我曾是那种认为Vibe Coding只是AI垃圾代码的工程师。后来发现自己错了。
Vibe Coding的核心不是什么都不懂,而是消除摩擦,让你能构建更多东西。我做的项目里,90%以上的代码都是AI写的。目标不是理解每一行代码,而是在一天内把想法变成能用的东西。
+ 如何找到爆款创意
好点子不会凭空出现。要理解好内容,你得先消费内容。
刷信息流时,留意三件事:什么让你停下滑动、什么让你好奇、什么让你产生情绪共鸣。把这些记下来。
目的不是抄袭爆款,而是学习什么让好内容成为好内容。
有个帖子我获得了50万以上的曝光。我观察到几周内有多个关于计算机视觉和three.js的vibe coding帖子火了。然后我把这个观察和个人经历结合起来。
学编程时,我有个学校项目是展示分形图形,评判标准之一是“能不能让人感到惊艳”。这给了我灵感,做了一个可以用手势控制的分形模拟器。我对视觉效果有信心,因为我亲身体验过那种惊艳感。
+ 我的技术栈和工具
软件工程就是在各种权衡中做选择。我的建议很简单:快速发布,别在工具选择上纠结太久。
Rork是我主要的移动端vibe coding工具。我能直接在手机上开发,跳过本地环境配置,随时给朋友展示。很多想法是在健身房冒出来的,以前写在备忘录里回家就忘了。现在我能当场用Rork做出原型,尝试更多想法。
Claude Code用来处理其他几乎所有事情。升级到Max版后没了使用限制,可以并行运行多个Agent,测试想法更快,不用担心配额耗尽。
工具太多容易让人不知所措。我的建议是:试用几款有免费试用的工具,选2到3个你最喜欢的,然后深度学习它们。只有遇到硬性限制时才换工具。
+ 让设计好看的实用技巧
我不是设计专家,但知道很多人和我一样没有设计背景。
第一,多用设计参考。Screensdesign看引导流程,Dribbble和Pinterest找布局灵感。
第二,尽早建立一致性。创建一个共享的样式常量文件,所有页面从同一个文件调用。代码更好维护,应用也显得更干净、更有设计感。
第三,用AI找设计问题。每次做完新页面,我会发给ChatGPT问:对比同类头部应用能改进什么、颜色搭配有没有冲突、间距是否看起来不对劲。大概60%的时候能得到有用的反馈。这种反馈循环会积累,你接触好设计越多,品味自然会提升。
+ 如何写出爆款帖子
病毒式传播不是随机的,是可以复制的。
我有个帖子效果很好,原因是两点:开头就展示有趣的功能,前几秒就呈现惊艳效果。这让人看到最后。观看时间越长,算法就会推给更多人。我还在评论区加了使用的工具和模型,增加收藏量,最后附上体验链接。
另一个效果好的系列是“构建心理健康应用的第X天”。很少有人持续在心理健康领域发帖,所以这个开头让人一眼就认出是我的内容。
结构要保持简洁。我经常看到帖子堆满技术细节,但说实话大多数人并不关心。真正感兴趣的人会私信你。配图也很重要,它让帖子在时间线上占据更多空间,光这一点就能增加有人停下来看的概率。我用Canva做简洁的截图,直接展示正在演示的功能。
+ 让帖子关于读者,而非你自己
很多产品帖子失败的原因是只关注业务、功能、技术栈,却没有关注读者。
与其让帖子讲你构建了什么,不如框架成读者能共鸣的场景,或者你希望产品让他们产生的感受。
举个例子,别写“我做了一个情绪追踪的心理健康应用”,试试“表面说自己还好,内心其实在崩溃。我做了个应用,几秒钟就能记录你的真实情绪。”
前者是功能说明,后者让读者代入熟悉的场景,产生共鸣,进而互动。
+ 最后一点
去做那些你真正感兴趣的东西。
当你在乎自己构建的东西,这会体现在帖子里、演示里、你谈论它的方式里。人们能感受到你是不是在享受这个过程。我觉得这就是写一次爆款和反复做出爆款之间的关键区别。
让NotebookLM效率爆表的实战提示词 | 帖子
这些提示词能把NotebookLM从一个演示工具变成真正的生产力武器——原本需要几小时的工作,几秒钟就能搞定。
直接上干货,复制即用。
一、终极课程学习提示词
“审阅所有上传材料,生成5个能抓住核心要义的关键问题。聚焦于:核心主题与定义、重点强调的概念、概念之间的关系、提到的实际应用。”
Reddit上被称为“改变游戏规则”的提示词。它逼迫AI提取出真正有教学价值的结构,而不是敷衍的浅层总结。
二、“发现有趣之处”提示词
这是NotebookLM负责人Steven Johnson亲测有效的方法。他用这个提示词处理了50万字的NASA访谈记录,原本需要10小时的人工整理,20秒就完成了:
“这些资料中最令人惊讶或有趣的信息是什么?请附上关键引述。”
进阶版本可以加上方向引导:“我想写关于某个主题的内容。这些资料中有哪些与该主题相关的惊人事实或观点?请附上关键引述,聚焦于某个具体方面,忽略其他方面。”
传统搜索无法挖掘“有趣度”,但这个可以。
三、问答节目格式
学生特别喜欢这个。两个AI主持人互相问答,其中一个故意答错,另一个纠正——错误纠正的记忆效果远比直接给答案强得多:
“一档问答节目,两位主持人。第一位就某主题向第二位提问,共10道题,选择题和判断题混搭。主持人有时会答错,另一位负责纠正并给出正确答案,最后公布结果。”
四、多语言播客技巧
在官方语言支持出现之前,用户就用这个方法生成西班牙语、德语、日语播客:
“这是Deep Dive首期国际特别节目,全程使用某种语言。特别说明:全程只用该语言,除非需要解释特定术语,否则不使用英语。”
五、产品经理角色
来自谷歌官方,把文档转化为决策备忘录:
“扮演一位首席产品经理审阅内部文档。无情地筛选可执行洞察,忽略废话。整理成决策备忘录格式:用户证据(表明用户问题的直接引述)、可行性检查(提到的技术限制)、盲点(原文缺失的内容)。用要点呈现。如果我问题模糊,强迫我澄清。”
六、科研人员角色
同样来自谷歌官方,适合需要关注方法论而非结论的学术工作者:
“扮演资深科学家的研究助理。语气:严格客观、正式、精确。假设具备某领域的高级知识,不解释标准术语。聚焦方法论、数据完整性和矛盾证据。优先关注样本量、实验设计和统计显著性,而非笼统结论。用加粗标题格式呈现:关键发现、方法论优缺点、矛盾之处。”
七、中学教师角色
让晦涩内容变得易懂:
“扮演一位引人入胜的中学教师。把原文档翻译成七年级学生能理解的语言。每次回复都包含:一句话简述(用简单词汇)、类比(真实世界的比喻)、词汇表(3个难词的简单解释)。遇到复杂段落,转化成判断题格式。”
八、文献综述主题提示词
适合需要综合多篇论文的研究者:
“从关于某主题的论文中,识别5到10个最常出现的主题。每个主题提供:用你自己的话给出简短定义、哪些论文提及(附引用)、一句话说明该主题被如何处理(是被争论、假设还是验证)。以结构化表格呈现。”
这些提示词的共同特点是什么?它们都在用结构和角色设定来引导AI输出。不是简单地问“帮我总结”,而是告诉它以什么身份、用什么视角、按什么格式来处理信息。这才是提示词工程的核心:你给AI的约束越精确,它给你的输出就越有价值。
这些提示词能把NotebookLM从一个演示工具变成真正的生产力武器——原本需要几小时的工作,几秒钟就能搞定。
直接上干货,复制即用。
一、终极课程学习提示词
“审阅所有上传材料,生成5个能抓住核心要义的关键问题。聚焦于:核心主题与定义、重点强调的概念、概念之间的关系、提到的实际应用。”
Reddit上被称为“改变游戏规则”的提示词。它逼迫AI提取出真正有教学价值的结构,而不是敷衍的浅层总结。
二、“发现有趣之处”提示词
这是NotebookLM负责人Steven Johnson亲测有效的方法。他用这个提示词处理了50万字的NASA访谈记录,原本需要10小时的人工整理,20秒就完成了:
“这些资料中最令人惊讶或有趣的信息是什么?请附上关键引述。”
进阶版本可以加上方向引导:“我想写关于某个主题的内容。这些资料中有哪些与该主题相关的惊人事实或观点?请附上关键引述,聚焦于某个具体方面,忽略其他方面。”
传统搜索无法挖掘“有趣度”,但这个可以。
三、问答节目格式
学生特别喜欢这个。两个AI主持人互相问答,其中一个故意答错,另一个纠正——错误纠正的记忆效果远比直接给答案强得多:
“一档问答节目,两位主持人。第一位就某主题向第二位提问,共10道题,选择题和判断题混搭。主持人有时会答错,另一位负责纠正并给出正确答案,最后公布结果。”
四、多语言播客技巧
在官方语言支持出现之前,用户就用这个方法生成西班牙语、德语、日语播客:
“这是Deep Dive首期国际特别节目,全程使用某种语言。特别说明:全程只用该语言,除非需要解释特定术语,否则不使用英语。”
五、产品经理角色
来自谷歌官方,把文档转化为决策备忘录:
“扮演一位首席产品经理审阅内部文档。无情地筛选可执行洞察,忽略废话。整理成决策备忘录格式:用户证据(表明用户问题的直接引述)、可行性检查(提到的技术限制)、盲点(原文缺失的内容)。用要点呈现。如果我问题模糊,强迫我澄清。”
六、科研人员角色
同样来自谷歌官方,适合需要关注方法论而非结论的学术工作者:
“扮演资深科学家的研究助理。语气:严格客观、正式、精确。假设具备某领域的高级知识,不解释标准术语。聚焦方法论、数据完整性和矛盾证据。优先关注样本量、实验设计和统计显著性,而非笼统结论。用加粗标题格式呈现:关键发现、方法论优缺点、矛盾之处。”
七、中学教师角色
让晦涩内容变得易懂:
“扮演一位引人入胜的中学教师。把原文档翻译成七年级学生能理解的语言。每次回复都包含:一句话简述(用简单词汇)、类比(真实世界的比喻)、词汇表(3个难词的简单解释)。遇到复杂段落,转化成判断题格式。”
八、文献综述主题提示词
适合需要综合多篇论文的研究者:
“从关于某主题的论文中,识别5到10个最常出现的主题。每个主题提供:用你自己的话给出简短定义、哪些论文提及(附引用)、一句话说明该主题被如何处理(是被争论、假设还是验证)。以结构化表格呈现。”
这些提示词的共同特点是什么?它们都在用结构和角色设定来引导AI输出。不是简单地问“帮我总结”,而是告诉它以什么身份、用什么视角、按什么格式来处理信息。这才是提示词工程的核心:你给AI的约束越精确,它给你的输出就越有价值。
❤2
2026年,软件工程师如何避免被淘汰 | 原文
如果你最近打开终端时感到一阵莫名的焦虑,你并不孤单。
我们都看到了这一幕:敲下一行命令,AI瞬间写出比你花二十分钟还好的代码;把报错日志丢进对话框,它精准告诉你哪个变量是空值。
这感觉像魔法。但对很多工程师来说,这更像是末日预告。
如果你的职业价值建立在背语法、刷算法、白板上翻转二叉树这些技能上,确实该担心了。这种形态的工作已经死了。
但大多数人忽略了一点:软件工程师这个职业并没有消亡,它只是终于甩掉了那些无聊的部分。
2026年的市场不再为代码付费——代码现在几乎免费。市场付费的是被解决的问题。
想要在新时代不仅活下来还能赚更多,你必须停止像流水线工人那样思考,开始像工厂的建筑师那样行动。
+ 从“写作者”到“主编”的身份转变
过去二十年,你的核心工作是把想法手动翻译成精确的机器语言。这是一个缓慢、高摩擦的过程。
现在,大语言模型执行同样的想法比你快一百倍。试图在速度和语法记忆上打败它,就像试图跑赢汽车。
你必须完成一次心智转变:你不再是写作者,你是主编。
AI不是能独立解决问题的初级开发者,而是一个高速执行工具,它精确地写出你告诉它的东西。它映射你的逻辑,但规模放大百倍。如果你的思考是混乱的,AI只会给你一个“完美版本”的错误想法。
你的工作不再是“写循环”,而是:知道真正需要哪种循环、审查AI遗漏的安全漏洞、把那个函数缝合进公司产品这个庞大复杂的系统中。
+ 架构能力是新的入门门槛
既然AI处理了实现细节,你的价值就向上迁移到架构决策层。
AI不擅长大局观。它能写出完美的增删改查服务,但完全不知道这个微服务是否应该存在,或者它会不会让你的数据库成本爆炸。
你需要深入理解数据如何从用户点击流向数据库再返回;学会权衡为什么选关系型数据库而不是文档数据库,为什么选无服务器架构而不是专用服务器——这些决策依赖预算、团队规模等商业约束,AI无法替你做出。
+ 调试能力占工作的九成
关于AI代码有个不能说的秘密:它看起来正确,但会以诡异微妙的方式失败。
我们曾经面对“语法错误”——代码跑不起来。现在我们面对更多“逻辑错误”——代码跑得很顺畅,但自信满满地做着错误的事。
当AI给你一段代码时,把它当作一个微醺实习生提交的代码审查来对待。逐行阅读,假设它漏了空值检查,假设它忘了处理边界情况。
你阅读代码的能力,现在比写代码的能力更重要。
+ 成为安全守门人
2026年,代码库最大的威胁不是黑客,而是未经审查的AI建议。
AI模型在数十亿行代码上训练,其中很多是陈旧的、不安全的、甚至错误的。你要求一个数据库查询,它可能给你一个容易被注入攻击的写法;你要求一个认证流程,它可能建议一个已废弃的哈希算法。
你就是防火墙。你需要识别那些“看起来安全但后门大开”的幻觉式安全逻辑。
+ 成为产品工程师
这是能让你免于被裁的关键。
纯粹的编码者可能会变成可替代品,而产品工程师是资产。
产品工程师不只是看着任务单写代码,他们理解商业目标,会问:为什么要做这个功能?有没有不写代码的更简单方案?这对用户体验有什么影响?
当你理解产品,你就能用AI在几小时内构建过去需要几周的原型。你成为一支一人军队。如果你能走进会议室,理解一个商业问题,然后交付解决方案,你就是不可替代的。
+ 停止做这些事
别再浪费脑力记模板代码的精确语法了,查一下或问AI。别再当纯粹主义者说“不是自己敲的就不是真正的编程”——用户不在乎,业务不在乎。别再关掉代码补全工具说它碍事——2026年无视AI就像2005年无视搜索引擎。
+ 结语
残酷的真相是:那些只会复制粘贴不动脑子的开发者,日子会很难过。
但对于真正的建造者?这是历史上最好的时代。
你曾经被手指移动的速度限制。现在,你只被思考的清晰度限制。入门门槛降低了,但影响力的天花板被捅穿了。
这个周末,别再从零开始写待办事项应用了。拿一个你酝酿已久的想法,看看用AI工具能多快把整个东西搭起来。专注于架构和产品。
让机器处理语法,你来掌控愿景。
如果你最近打开终端时感到一阵莫名的焦虑,你并不孤单。
我们都看到了这一幕:敲下一行命令,AI瞬间写出比你花二十分钟还好的代码;把报错日志丢进对话框,它精准告诉你哪个变量是空值。
这感觉像魔法。但对很多工程师来说,这更像是末日预告。
如果你的职业价值建立在背语法、刷算法、白板上翻转二叉树这些技能上,确实该担心了。这种形态的工作已经死了。
但大多数人忽略了一点:软件工程师这个职业并没有消亡,它只是终于甩掉了那些无聊的部分。
2026年的市场不再为代码付费——代码现在几乎免费。市场付费的是被解决的问题。
想要在新时代不仅活下来还能赚更多,你必须停止像流水线工人那样思考,开始像工厂的建筑师那样行动。
+ 从“写作者”到“主编”的身份转变
过去二十年,你的核心工作是把想法手动翻译成精确的机器语言。这是一个缓慢、高摩擦的过程。
现在,大语言模型执行同样的想法比你快一百倍。试图在速度和语法记忆上打败它,就像试图跑赢汽车。
你必须完成一次心智转变:你不再是写作者,你是主编。
AI不是能独立解决问题的初级开发者,而是一个高速执行工具,它精确地写出你告诉它的东西。它映射你的逻辑,但规模放大百倍。如果你的思考是混乱的,AI只会给你一个“完美版本”的错误想法。
你的工作不再是“写循环”,而是:知道真正需要哪种循环、审查AI遗漏的安全漏洞、把那个函数缝合进公司产品这个庞大复杂的系统中。
+ 架构能力是新的入门门槛
既然AI处理了实现细节,你的价值就向上迁移到架构决策层。
AI不擅长大局观。它能写出完美的增删改查服务,但完全不知道这个微服务是否应该存在,或者它会不会让你的数据库成本爆炸。
你需要深入理解数据如何从用户点击流向数据库再返回;学会权衡为什么选关系型数据库而不是文档数据库,为什么选无服务器架构而不是专用服务器——这些决策依赖预算、团队规模等商业约束,AI无法替你做出。
+ 调试能力占工作的九成
关于AI代码有个不能说的秘密:它看起来正确,但会以诡异微妙的方式失败。
我们曾经面对“语法错误”——代码跑不起来。现在我们面对更多“逻辑错误”——代码跑得很顺畅,但自信满满地做着错误的事。
当AI给你一段代码时,把它当作一个微醺实习生提交的代码审查来对待。逐行阅读,假设它漏了空值检查,假设它忘了处理边界情况。
你阅读代码的能力,现在比写代码的能力更重要。
+ 成为安全守门人
2026年,代码库最大的威胁不是黑客,而是未经审查的AI建议。
AI模型在数十亿行代码上训练,其中很多是陈旧的、不安全的、甚至错误的。你要求一个数据库查询,它可能给你一个容易被注入攻击的写法;你要求一个认证流程,它可能建议一个已废弃的哈希算法。
你就是防火墙。你需要识别那些“看起来安全但后门大开”的幻觉式安全逻辑。
+ 成为产品工程师
这是能让你免于被裁的关键。
纯粹的编码者可能会变成可替代品,而产品工程师是资产。
产品工程师不只是看着任务单写代码,他们理解商业目标,会问:为什么要做这个功能?有没有不写代码的更简单方案?这对用户体验有什么影响?
当你理解产品,你就能用AI在几小时内构建过去需要几周的原型。你成为一支一人军队。如果你能走进会议室,理解一个商业问题,然后交付解决方案,你就是不可替代的。
+ 停止做这些事
别再浪费脑力记模板代码的精确语法了,查一下或问AI。别再当纯粹主义者说“不是自己敲的就不是真正的编程”——用户不在乎,业务不在乎。别再关掉代码补全工具说它碍事——2026年无视AI就像2005年无视搜索引擎。
+ 结语
残酷的真相是:那些只会复制粘贴不动脑子的开发者,日子会很难过。
但对于真正的建造者?这是历史上最好的时代。
你曾经被手指移动的速度限制。现在,你只被思考的清晰度限制。入门门槛降低了,但影响力的天花板被捅穿了。
这个周末,别再从零开始写待办事项应用了。拿一个你酝酿已久的想法,看看用AI工具能多快把整个东西搭起来。专注于架构和产品。
让机器处理语法,你来掌控愿景。
普通人如何用Claude Code实现自动化:一份零基础指南 | #指南
现在学会这项技能的人,将获得巨大的先发优势。六个月后,这将成为常识。但在那之前开始的人,才是真正的赢家。
大多数人打开Claude Code,对着黑色终端发呆二十分钟。他们看到推特上人人都在发布应用、自动化工具、完整产品,然后默默关掉——因为根本不知道该做什么。
问题不在于Claude Code,而在于他们跳过了最关键的一步。
+ 为什么多数人会失败
Claude Code看起来很吓人:终端界面,光标闪烁,仿佛只有开发者才能驾驭。
其实不然。Claude Code本质上就是一个能“动手干活”的聊天窗口——读取文件、编写代码、搜索网络、构建系统。
失败者并非缺乏技术能力,而是不知道该问什么。他们打开软件时想的是“我应该做个应用”,而不是“有什么事情正在困扰我,可以被解决?”
这才是关键的思维转变。
+ 四步工作流
我见过很多人从“不知道做什么”到每周节省数小时,他们都遵循相同的流程。
第一步:盘点你的一周
在打开Claude Code之前,拿张纸写下上周所有重复、繁琐、恼人的事情:研究竞品、整理报告、搬运数据、写重复邮件、整理文件。
这些不是性感的产品创意,不会获得点赞。但它们是你真实存在的问题——这才是重点。你的第一个自动化不应该是业余项目,而应该是那些每周吃掉你两三个小时的琐事。
第二步:与Claude探索方案
现在打开Claude Code,但不要急着让它构建任何东西。先描述你要解决的问题:
“我每周花两小时研究竞品的YouTube频道,查看热门视频、分析趋势。有没有办法自动化?”
然后要求它给出选项:“给我三种不同方案,说明各自优缺点。”
这里有个关键:追求更简单的方案。如果Claude建议需要配置API密钥和计费,就问“有没有免费版本不需要这些?”通常都有。
不要接受第一个答案,把它当作与专家的对话来对待。
第三步:先规划再构建
这是多数人搞砸的地方。他们一兴奋就说“好,开始做”,然后放任Claude运行。
这是个坏主意。AI会做大量假设,跳过规划步骤意味着这些假设会变成日后的bug。
正确做法:按Shift+Tab切换到“计划模式”,告诉Claude写一份规格说明——功能、输入、输出的样子,先不写代码。审查规格说明后,砍掉第一版不需要的一切。
AI总是想做太多,你会看到没要求的功能和不必要的复杂度。规格说明是你与Claude的契约,批准后再让它动手。
这一步花十分钟,能省下数小时的调试时间。
第四步:构建与迭代
现在可以让Claude按规格实现了。它会创建文件、编写代码、搭建系统——你不需要理解任何一行。
出错时(肯定会的),复制错误信息粘贴回去,说“修复这个”。
这就是循环:构建、出错、修复、重复。
不要期望第一次就完美,期望的是一个可以改进的工作草稿。
+ 实战案例:YouTube研究器
我想自动化竞品YouTube研究,手动做需要每周两小时。
我告诉Claude问题后,它给了三个选项:官方API(设置复杂)、网页抓取(不稳定)、免费工具yt-dlp。我问yt-dlp是否更简单,确认后无需API密钥,直接可用。
切换到计划模式要求规格说明后,我砍掉了它自作主张添加的“缩略图分析”功能。十分钟后,我有了一个工作命令:输入频道名,获得完整研究报告。
曾经两小时的工作,现在三十秒完成。
+ 70/80法则
这里有个没人告诉你的真相:这种编程方式70%到80%的工作是写文档,不是写代码。
计划、规格、需求、用大白话描述你想要什么。AI写代码,你的工作是把需求解释得足够清楚,让它不做错误假设。
这正是非技术人员能做好这件事的原因。你比拼的不是编码能力,而是沟通能力、清晰度、具体性。如果你能写一封清晰的邮件,你就能做到这一切。
+ 真正的技能
让我直说正在发生什么:你不是在学编程,你是在学习管理一个替你编程的AI。
这是不同的技能,而现在几乎没人掌握它。
在Claude Code上取得成功的不是开发者,而是那些知道该解决什么问题、能清晰表达问题的人。技术能力每天都在被AI商品化,AI写的代码已经比大多数初级开发者更好了。
但知道该解决哪些问题?知道如何把大目标拆成小步骤?知道如何审查输出、发现错误?这是人类的工作,不会消失。
+ 窗口期
六个月后人人都会知道怎么做这些。Claude Code会有更友好的界面,会有课程和认证,一切会变得理所当然。
现在它仍然感觉困难、吓人,好像需要许可才能尝试。你不需要。
今天培养这项技能的人将拥有巨大的领先优势——不是因为技能本身有多难,而是因为他们在一切变得显而易见之前就开始了。
工具是免费的,机会就在眼前。别再盯着空白终端发呆了,开始和它对话吧。
现在学会这项技能的人,将获得巨大的先发优势。六个月后,这将成为常识。但在那之前开始的人,才是真正的赢家。
大多数人打开Claude Code,对着黑色终端发呆二十分钟。他们看到推特上人人都在发布应用、自动化工具、完整产品,然后默默关掉——因为根本不知道该做什么。
问题不在于Claude Code,而在于他们跳过了最关键的一步。
+ 为什么多数人会失败
Claude Code看起来很吓人:终端界面,光标闪烁,仿佛只有开发者才能驾驭。
其实不然。Claude Code本质上就是一个能“动手干活”的聊天窗口——读取文件、编写代码、搜索网络、构建系统。
失败者并非缺乏技术能力,而是不知道该问什么。他们打开软件时想的是“我应该做个应用”,而不是“有什么事情正在困扰我,可以被解决?”
这才是关键的思维转变。
+ 四步工作流
我见过很多人从“不知道做什么”到每周节省数小时,他们都遵循相同的流程。
第一步:盘点你的一周
在打开Claude Code之前,拿张纸写下上周所有重复、繁琐、恼人的事情:研究竞品、整理报告、搬运数据、写重复邮件、整理文件。
这些不是性感的产品创意,不会获得点赞。但它们是你真实存在的问题——这才是重点。你的第一个自动化不应该是业余项目,而应该是那些每周吃掉你两三个小时的琐事。
第二步:与Claude探索方案
现在打开Claude Code,但不要急着让它构建任何东西。先描述你要解决的问题:
“我每周花两小时研究竞品的YouTube频道,查看热门视频、分析趋势。有没有办法自动化?”
然后要求它给出选项:“给我三种不同方案,说明各自优缺点。”
这里有个关键:追求更简单的方案。如果Claude建议需要配置API密钥和计费,就问“有没有免费版本不需要这些?”通常都有。
不要接受第一个答案,把它当作与专家的对话来对待。
第三步:先规划再构建
这是多数人搞砸的地方。他们一兴奋就说“好,开始做”,然后放任Claude运行。
这是个坏主意。AI会做大量假设,跳过规划步骤意味着这些假设会变成日后的bug。
正确做法:按Shift+Tab切换到“计划模式”,告诉Claude写一份规格说明——功能、输入、输出的样子,先不写代码。审查规格说明后,砍掉第一版不需要的一切。
AI总是想做太多,你会看到没要求的功能和不必要的复杂度。规格说明是你与Claude的契约,批准后再让它动手。
这一步花十分钟,能省下数小时的调试时间。
第四步:构建与迭代
现在可以让Claude按规格实现了。它会创建文件、编写代码、搭建系统——你不需要理解任何一行。
出错时(肯定会的),复制错误信息粘贴回去,说“修复这个”。
这就是循环:构建、出错、修复、重复。
不要期望第一次就完美,期望的是一个可以改进的工作草稿。
+ 实战案例:YouTube研究器
我想自动化竞品YouTube研究,手动做需要每周两小时。
我告诉Claude问题后,它给了三个选项:官方API(设置复杂)、网页抓取(不稳定)、免费工具yt-dlp。我问yt-dlp是否更简单,确认后无需API密钥,直接可用。
切换到计划模式要求规格说明后,我砍掉了它自作主张添加的“缩略图分析”功能。十分钟后,我有了一个工作命令:输入频道名,获得完整研究报告。
曾经两小时的工作,现在三十秒完成。
+ 70/80法则
这里有个没人告诉你的真相:这种编程方式70%到80%的工作是写文档,不是写代码。
计划、规格、需求、用大白话描述你想要什么。AI写代码,你的工作是把需求解释得足够清楚,让它不做错误假设。
这正是非技术人员能做好这件事的原因。你比拼的不是编码能力,而是沟通能力、清晰度、具体性。如果你能写一封清晰的邮件,你就能做到这一切。
+ 真正的技能
让我直说正在发生什么:你不是在学编程,你是在学习管理一个替你编程的AI。
这是不同的技能,而现在几乎没人掌握它。
在Claude Code上取得成功的不是开发者,而是那些知道该解决什么问题、能清晰表达问题的人。技术能力每天都在被AI商品化,AI写的代码已经比大多数初级开发者更好了。
但知道该解决哪些问题?知道如何把大目标拆成小步骤?知道如何审查输出、发现错误?这是人类的工作,不会消失。
+ 窗口期
六个月后人人都会知道怎么做这些。Claude Code会有更友好的界面,会有课程和认证,一切会变得理所当然。
现在它仍然感觉困难、吓人,好像需要许可才能尝试。你不需要。
今天培养这项技能的人将拥有巨大的领先优势——不是因为技能本身有多难,而是因为他们在一切变得显而易见之前就开始了。
工具是免费的,机会就在眼前。别再盯着空白终端发呆了,开始和它对话吧。
❤1
10个月深度使用后,我的Claude Code完整配置指南 | 原文
从二月实验版开始,我就是Claude Code的重度用户,并用它在Anthropic x Forum Ventures黑客松中拿下冠军。十个月日常使用后,分享我摸索出的完整配置体系。
+ Skills与Commands:让重复工作一键完成
Skills本质上是限定作用域的规则,可以理解为特定工作流的提示词简写。长时间用Opus 4.5写代码后想清理死代码?直接运行/refactor-clean。需要测试?/tdd、/e2e、/test-coverage,这些命令还能在单个提示词中链式调用。
两者略有重叠但存储位置不同:Skills放在~/.claude/skills,是更宽泛的工作流定义;Commands放在~/.claude/commands,是快速可执行的提示词。
+ Hooks:基于触发器的自动化
与Skills不同,Hooks被限定在工具调用和生命周期事件上。主要类型包括:PreToolUse(工具执行前的验证提醒)、PostToolUse(执行后的格式化反馈)、UserPromptSubmit(发送消息时)、Stop(Claude响应完成时)等。
比如我设置了一个Hook:在执行npm、pnpm等长时间命令前,如果不在tmux会话中就提醒考虑使用tmux保持会话持久性。另一个实用技巧是用hookify插件对话式创建Hooks,省去手写JSON的麻烦。
+ Subagents:任务委派的艺术
Subagents是主编排器可以委派任务的子进程,拥有受限的作用域,可在前台或后台运行,为主Agent释放上下文。它们与Skills配合默契——一个能执行部分Skills的Subagent可以自主完成被委派的任务。
我的Subagents配置包括:planner负责功能规划、architect负责系统设计、tdd-guide负责测试驱动开发、security-reviewer负责漏洞分析等。关键是为每个Subagent配置允许的工具、MCP和权限。
+ MCP:连接外部世界的桥梁
MCP将Claude直接连接到外部服务,本质是API的提示词驱动包装器。比如Supabase MCP让Claude能直接拉取特定数据、执行SQL查询,无需复制粘贴。
但这里有个关键点:上下文窗口管理。200k的上下文窗口,如果启用太多工具可能实际只剩70k,性能会显著下降。我的原则是:配置20-30个MCP,但保持启用数量在10个以下、活跃工具在80个以内。
+ 插件与LSP
插件将工具打包以便安装,省去繁琐的手动设置。LSP插件特别有用——如果你经常在编辑器外运行Claude Code,语言服务器协议能提供实时类型检查和智能补全,无需打开IDE。
+ 实用技巧集锦
键盘快捷键方面:Ctrl+U删除整行、!作为快速bash命令前缀、@搜索文件、Tab切换思考显示、Esc Esc中断Claude或恢复代码。
并行工作流方面:/fork可分叉对话处理非重叠任务;Git Worktrees让多个Claude实例无冲突并行工作。
另外强烈推荐用mgrep替代grep,它比ripgrep有显著提升,支持本地和网络搜索。
+ 编辑器选择
虽然不是必需,但好的编辑器能显著提升效率。我用Zed——一个基于Rust的轻量级编辑器,打开即时、大代码库也不卡顿。它的Agent Panel能实时追踪Claude的文件修改,CMD+Shift+R命令面板可快速访问所有自定义命令。
VS Code和Cursor同样可行,可选终端模式或扩展集成模式。
+ 核心要点
不要过度复杂化,把配置当作微调而非架构设计。上下文窗口是稀缺资源,禁用不用的MCP和插件。善用并行执行,自动化重复工作,为Subagents设置明确边界。
这套体系的精髓在于:在保持强大能力的同时,精准控制资源消耗。
从二月实验版开始,我就是Claude Code的重度用户,并用它在Anthropic x Forum Ventures黑客松中拿下冠军。十个月日常使用后,分享我摸索出的完整配置体系。
+ Skills与Commands:让重复工作一键完成
Skills本质上是限定作用域的规则,可以理解为特定工作流的提示词简写。长时间用Opus 4.5写代码后想清理死代码?直接运行/refactor-clean。需要测试?/tdd、/e2e、/test-coverage,这些命令还能在单个提示词中链式调用。
两者略有重叠但存储位置不同:Skills放在~/.claude/skills,是更宽泛的工作流定义;Commands放在~/.claude/commands,是快速可执行的提示词。
+ Hooks:基于触发器的自动化
与Skills不同,Hooks被限定在工具调用和生命周期事件上。主要类型包括:PreToolUse(工具执行前的验证提醒)、PostToolUse(执行后的格式化反馈)、UserPromptSubmit(发送消息时)、Stop(Claude响应完成时)等。
比如我设置了一个Hook:在执行npm、pnpm等长时间命令前,如果不在tmux会话中就提醒考虑使用tmux保持会话持久性。另一个实用技巧是用hookify插件对话式创建Hooks,省去手写JSON的麻烦。
+ Subagents:任务委派的艺术
Subagents是主编排器可以委派任务的子进程,拥有受限的作用域,可在前台或后台运行,为主Agent释放上下文。它们与Skills配合默契——一个能执行部分Skills的Subagent可以自主完成被委派的任务。
我的Subagents配置包括:planner负责功能规划、architect负责系统设计、tdd-guide负责测试驱动开发、security-reviewer负责漏洞分析等。关键是为每个Subagent配置允许的工具、MCP和权限。
+ MCP:连接外部世界的桥梁
MCP将Claude直接连接到外部服务,本质是API的提示词驱动包装器。比如Supabase MCP让Claude能直接拉取特定数据、执行SQL查询,无需复制粘贴。
但这里有个关键点:上下文窗口管理。200k的上下文窗口,如果启用太多工具可能实际只剩70k,性能会显著下降。我的原则是:配置20-30个MCP,但保持启用数量在10个以下、活跃工具在80个以内。
+ 插件与LSP
插件将工具打包以便安装,省去繁琐的手动设置。LSP插件特别有用——如果你经常在编辑器外运行Claude Code,语言服务器协议能提供实时类型检查和智能补全,无需打开IDE。
+ 实用技巧集锦
键盘快捷键方面:Ctrl+U删除整行、!作为快速bash命令前缀、@搜索文件、Tab切换思考显示、Esc Esc中断Claude或恢复代码。
并行工作流方面:/fork可分叉对话处理非重叠任务;Git Worktrees让多个Claude实例无冲突并行工作。
另外强烈推荐用mgrep替代grep,它比ripgrep有显著提升,支持本地和网络搜索。
+ 编辑器选择
虽然不是必需,但好的编辑器能显著提升效率。我用Zed——一个基于Rust的轻量级编辑器,打开即时、大代码库也不卡顿。它的Agent Panel能实时追踪Claude的文件修改,CMD+Shift+R命令面板可快速访问所有自定义命令。
VS Code和Cursor同样可行,可选终端模式或扩展集成模式。
+ 核心要点
不要过度复杂化,把配置当作微调而非架构设计。上下文窗口是稀缺资源,禁用不用的MCP和插件。善用并行执行,自动化重复工作,为Subagents设置明确边界。
这套体系的精髓在于:在保持强大能力的同时,精准控制资源消耗。
AI/ML数学学习指南:从不确定性到确定性的思维跃迁 | 原文
很多人问我,学AI和机器学习到底需要掌握哪些数学?今天把我自己走过的路和用过的资源整理出来,希望能帮你少走弯路。
先说结论:三大支柱——统计概率、线性代数、微积分。但更重要的是理解它们为什么重要。
+ 一、统计与概率:与不确定性共处的智慧
现实世界的数据从来都是嘈杂、残缺、充满不确定性的。概率论和统计学赋予我们在混沌中找规律的能力。
从最基础的概念开始:总体与样本。我们永远无法观测到完整的世界,只能通过有限的样本去推断。理解抽样偏差和代表性,直接关系到模型能否泛化。
描述性统计是起点——均值、中位数、众数帮我们把握数据的“中心”在哪里;方差和协方差则告诉我们数据有多“散”、变量之间如何联动。这些看似简单的概念,却是理解损失函数和风险最小化的根基。
随机变量、概率分布、正态分布、二项分布——这些不是抽象的数学游戏,而是我们对数据生成机制的假设。为什么高斯分布无处不在?中心极限定理给出了答案:即使原始数据分布不正态,样本均值也会趋向正态。这个定理是统计推断的基石。
贝叶斯定理值得特别关注。它教会我们一件事:信念应该随证据更新。这不仅是概率公式,更是一种思维方式——在不确定中保持开放、用新信息修正旧认知。现代机器学习中对不确定性的量化,很大程度上植根于此。
最大似然估计则搭建了理论与实践的桥梁:交叉熵损失、均方误差损失,其实都是MLE的自然产物。
+ 二、线性代数:数据与模型的骨架
机器学习里几乎所有计算都是矩阵运算。数据是矩阵,权重是矩阵,梯度是矩阵,激活值还是矩阵。
标量、向量、矩阵、张量——这是从一维到高维的进阶。一张图片是三维张量,一批图片是四维张量。理解这些结构,才能读懂深度学习框架里的每一行代码。
矩阵乘法定义了神经网络的前向传播;转置用于对齐形状;行列式和逆矩阵虽然实践中很少直接计算,但理解它们对把握线性系统的可解性至关重要。
特征值和特征向量描述的是变换的“本质方向”——哪些方向在变换中保持不变,只是被拉伸或压缩。这直接关联到模型的稳定性和收敛性。
SVD和PCA可能是最实用的两个工具。SVD提供数值稳定性和低秩近似;PCA实现降维、去噪、特征提取。它们本质上都在做同一件事:在保留核心信息的前提下,尽可能简化问题。
+ 三、微积分:让机器学会学习
训练模型的本质是优化问题。微积分解释了模型如何学习、学习多快、能否收敛。
导数衡量变化率,梯度指向最陡峭的上升方向。梯度下降就是沿着负梯度方向走,一步步逼近最优解。
高维世界需要更强大的工具:雅可比矩阵处理向量函数的一阶导数,海森矩阵捕捉二阶曲率信息,链式法则则是反向传播的数学基础。
理解损失曲面的地形很关键。局部最小值可能让训练“卡住”,鞍点在高维空间中比想象的更常见,凸性虽然罕见但能保证找到全局最优。
+ 四、我的学习路径
第一步:建立直觉。推荐3Blue1Brown的《线性代数的本质》和《微积分的本质》,用可视化理解抽象概念。
第二步:系统学习。Coursera上帝国理工的《机器学习数学》课程,把线性代数和多变量微积分讲得非常实用。
第三步:夯实统计概率。可汗学院的课程讲解清晰,练习充足。
第四步:连接数学与机器学习。《统计学习导论》这本书完美展示了理论如何落地为真实的模型。
最后:融会贯通。《机器学习数学》这本书把所有概念串联起来,展示它们如何在具体算法中协同工作。
数学从来不是机器学习的门槛,而是打开深层理解的钥匙。与其畏惧,不如拥抱——这条路走通了,你看问题的视角会完全不同。
很多人问我,学AI和机器学习到底需要掌握哪些数学?今天把我自己走过的路和用过的资源整理出来,希望能帮你少走弯路。
先说结论:三大支柱——统计概率、线性代数、微积分。但更重要的是理解它们为什么重要。
+ 一、统计与概率:与不确定性共处的智慧
现实世界的数据从来都是嘈杂、残缺、充满不确定性的。概率论和统计学赋予我们在混沌中找规律的能力。
从最基础的概念开始:总体与样本。我们永远无法观测到完整的世界,只能通过有限的样本去推断。理解抽样偏差和代表性,直接关系到模型能否泛化。
描述性统计是起点——均值、中位数、众数帮我们把握数据的“中心”在哪里;方差和协方差则告诉我们数据有多“散”、变量之间如何联动。这些看似简单的概念,却是理解损失函数和风险最小化的根基。
随机变量、概率分布、正态分布、二项分布——这些不是抽象的数学游戏,而是我们对数据生成机制的假设。为什么高斯分布无处不在?中心极限定理给出了答案:即使原始数据分布不正态,样本均值也会趋向正态。这个定理是统计推断的基石。
贝叶斯定理值得特别关注。它教会我们一件事:信念应该随证据更新。这不仅是概率公式,更是一种思维方式——在不确定中保持开放、用新信息修正旧认知。现代机器学习中对不确定性的量化,很大程度上植根于此。
最大似然估计则搭建了理论与实践的桥梁:交叉熵损失、均方误差损失,其实都是MLE的自然产物。
+ 二、线性代数:数据与模型的骨架
机器学习里几乎所有计算都是矩阵运算。数据是矩阵,权重是矩阵,梯度是矩阵,激活值还是矩阵。
标量、向量、矩阵、张量——这是从一维到高维的进阶。一张图片是三维张量,一批图片是四维张量。理解这些结构,才能读懂深度学习框架里的每一行代码。
矩阵乘法定义了神经网络的前向传播;转置用于对齐形状;行列式和逆矩阵虽然实践中很少直接计算,但理解它们对把握线性系统的可解性至关重要。
特征值和特征向量描述的是变换的“本质方向”——哪些方向在变换中保持不变,只是被拉伸或压缩。这直接关联到模型的稳定性和收敛性。
SVD和PCA可能是最实用的两个工具。SVD提供数值稳定性和低秩近似;PCA实现降维、去噪、特征提取。它们本质上都在做同一件事:在保留核心信息的前提下,尽可能简化问题。
+ 三、微积分:让机器学会学习
训练模型的本质是优化问题。微积分解释了模型如何学习、学习多快、能否收敛。
导数衡量变化率,梯度指向最陡峭的上升方向。梯度下降就是沿着负梯度方向走,一步步逼近最优解。
高维世界需要更强大的工具:雅可比矩阵处理向量函数的一阶导数,海森矩阵捕捉二阶曲率信息,链式法则则是反向传播的数学基础。
理解损失曲面的地形很关键。局部最小值可能让训练“卡住”,鞍点在高维空间中比想象的更常见,凸性虽然罕见但能保证找到全局最优。
+ 四、我的学习路径
第一步:建立直觉。推荐3Blue1Brown的《线性代数的本质》和《微积分的本质》,用可视化理解抽象概念。
第二步:系统学习。Coursera上帝国理工的《机器学习数学》课程,把线性代数和多变量微积分讲得非常实用。
第三步:夯实统计概率。可汗学院的课程讲解清晰,练习充足。
第四步:连接数学与机器学习。《统计学习导论》这本书完美展示了理论如何落地为真实的模型。
最后:融会贯通。《机器学习数学》这本书把所有概念串联起来,展示它们如何在具体算法中协同工作。
数学从来不是机器学习的门槛,而是打开深层理解的钥匙。与其畏惧,不如拥抱——这条路走通了,你看问题的视角会完全不同。
全球首个吉瓦级AI数据中心上线,通往AGI的路是一场暴力美学?| 帖子
xAI的Colossus 2正式投入运营,成为全球首个功率达到吉瓦级别的前沿AI数据中心。这个消息在技术社区引发了一场关于AI发展路径的深度讨论。
有人调侃说,通往AGI的道路看起来就像一场巨大的暴力破解攻击——“我们的基本策略连猴子都能理解:魔法盒子越大,魔法就越多。”这话虽然戏谑,却道出了当前AI竞赛的核心逻辑。
但事情并非如此简单。有内部观察者指出,xAI在过去六个月对Grok 4架构进行了大量优化,从Grok 4到4.1 thinking版本的进步有目共睹。这是一种双管齐下的策略:一边疯狂扩张算力,一边持续优化模型。正如有人所说:“如果有效,那就是有效。进化本身也是暴力破解。”
不过,质疑声同样存在。尽管xAI在建设数据中心方面展现了惊人速度,但在前沿AI领域的竞争力似乎并不突出。除了Grok Imagine,他们的模型从未真正出圈。在代理编码应用方面,甚至GLM可能比Grok更受欢迎。马斯克自己也承认,下一代Grok在编码能力上无法击败Opus 4.5。
这就引出了一个关键问题:更大的算力是否必然带来更好的性能?
从机器学习的扩展定律来看,计算资源的增加确实能带来性能的可预测提升。但正如有人指出,如果没有优秀的架构和训练方法,巨大的算力只会在饱和曲线上获得对数级别的边际收益。你必须设计它去做新的事情,它才能做出新的事情。
值得关注的是Grok 5的预期发布。据称这个模型将拥有约6万亿参数——参数就像大脑中的神经元,数量越多意味着模型能捕捉更微妙、更复杂的数据模式。预计它将在未来几个月内发布。
谷歌的策略则截然不同。他们不依赖超大规模集中式集群,而是采用众多分布式数据中心。统一集群在原始训练能力上确实有优势,但分布式系统可以通过更大的资源总量来弥补通信延迟的劣势。两种路径各有千秋。
这场算力军备竞赛的代价也不容忽视。有孟菲斯当地居民抱怨,未经授权的燃气涡轮机给周边居民健康带来了影响。技术进步与环境责任之间的张力,是这场竞赛中无法回避的议题。
xAI的Colossus 2正式投入运营,成为全球首个功率达到吉瓦级别的前沿AI数据中心。这个消息在技术社区引发了一场关于AI发展路径的深度讨论。
有人调侃说,通往AGI的道路看起来就像一场巨大的暴力破解攻击——“我们的基本策略连猴子都能理解:魔法盒子越大,魔法就越多。”这话虽然戏谑,却道出了当前AI竞赛的核心逻辑。
但事情并非如此简单。有内部观察者指出,xAI在过去六个月对Grok 4架构进行了大量优化,从Grok 4到4.1 thinking版本的进步有目共睹。这是一种双管齐下的策略:一边疯狂扩张算力,一边持续优化模型。正如有人所说:“如果有效,那就是有效。进化本身也是暴力破解。”
不过,质疑声同样存在。尽管xAI在建设数据中心方面展现了惊人速度,但在前沿AI领域的竞争力似乎并不突出。除了Grok Imagine,他们的模型从未真正出圈。在代理编码应用方面,甚至GLM可能比Grok更受欢迎。马斯克自己也承认,下一代Grok在编码能力上无法击败Opus 4.5。
这就引出了一个关键问题:更大的算力是否必然带来更好的性能?
从机器学习的扩展定律来看,计算资源的增加确实能带来性能的可预测提升。但正如有人指出,如果没有优秀的架构和训练方法,巨大的算力只会在饱和曲线上获得对数级别的边际收益。你必须设计它去做新的事情,它才能做出新的事情。
值得关注的是Grok 5的预期发布。据称这个模型将拥有约6万亿参数——参数就像大脑中的神经元,数量越多意味着模型能捕捉更微妙、更复杂的数据模式。预计它将在未来几个月内发布。
谷歌的策略则截然不同。他们不依赖超大规模集中式集群,而是采用众多分布式数据中心。统一集群在原始训练能力上确实有优势,但分布式系统可以通过更大的资源总量来弥补通信延迟的劣势。两种路径各有千秋。
这场算力军备竞赛的代价也不容忽视。有孟菲斯当地居民抱怨,未经授权的燃气涡轮机给周边居民健康带来了影响。技术进步与环境责任之间的张力,是这场竞赛中无法回避的议题。
❤1
当AI开始卖广告:ChatGPT的商业化转折与行业警示 | 帖子
OpenAI正式宣布,将在未来几周内于ChatGPT免费版和Go订阅层级测试广告功能。这一消息在用户社区引发了激烈讨论。
官方给出了四项承诺:广告不会影响AI回答内容;广告与对话内容明确分离并标注;用户对话隐私不向广告商泄露;Plus、Pro、Business和Enterprise层级不会出现广告。
看起来很克制,但问题在于——Go层级是付费订阅,每月8美元,却依然要看广告。这让不少用户感到不满:付了钱还要被广告打扰,这算什么道理?
社区的反应大致分为三派。
务实派认为这完全可以理解。免费服务总得有人买单,数据中心不会自己付账。与其让广告悄悄渗透进AI的回答里,不如明明白白地展示在界面上。Gmail不也这么干了很多年吗?
警惕派则看到了更深层的隐忧。他们援引“enshittification”(平台劣化)这个概念:几乎所有互联网服务都走过同样的路——先用免费吸引用户,再逐步加入广告,最后连付费用户也难逃其扰。今天说Plus不会有广告,谁能保证明天不会?Netflix、Paramount+、Amazon Prime,哪个不是这样一步步走过来的?
更让人担忧的是广告对AI回答的潜在影响。当你询问“附近有什么好餐厅”,AI会不会优先推荐付了广告费的商家?当你描述身体症状寻求建议,会不会被引导去购买某款保健品?一旦商业利益介入,AI作为“中立信息助手”的可信度就会大打折扣。
还有一派用户选择直接用脚投票。Gemini、Claude、Grok,以及来自中国的Deepseek、Qwen、Kimi等模型,目前都没有广告。虽然有人指出,谷歌作为全球最大的广告公司,Gemini迟早也会走上这条路,但至少现在还有选择。
这件事真正值得思考的,是AI行业的商业模式困境。
OpenAI据说连200美元的Pro订阅都在亏钱。训练和运行大模型的成本是天文数字,而用户已经习惯了免费或低价使用。当风投的钱烧完,当“AGI即将到来”的故事讲不下去,广告几乎是唯一的出路。
有用户一针见血地说:一旦OpenAI开了这个头而没有遭到市场惩罚,其他公司必然跟进。这不是OpenAI一家的选择,而是整个行业的转向。
更深层的问题是:当AI成为我们获取信息、做出决策的重要工具,它的中立性就变得至关重要。搜索引擎的广告化已经让我们付出了代价——前几条结果往往是广告而非最佳答案。如果AI也走上同样的路,我们失去的可能不只是使用体验,而是对一种新型信息工具的信任。
有人说,本地运行开源模型才是最终出路。这话不无道理,但对普通用户来说门槛太高。
或许我们需要接受一个现实:在互联网世界,如果你不是客户,你就是产品。免费的AI从来都不是真正免费的,只是账单还没寄到而已。
OpenAI正式宣布,将在未来几周内于ChatGPT免费版和Go订阅层级测试广告功能。这一消息在用户社区引发了激烈讨论。
官方给出了四项承诺:广告不会影响AI回答内容;广告与对话内容明确分离并标注;用户对话隐私不向广告商泄露;Plus、Pro、Business和Enterprise层级不会出现广告。
看起来很克制,但问题在于——Go层级是付费订阅,每月8美元,却依然要看广告。这让不少用户感到不满:付了钱还要被广告打扰,这算什么道理?
社区的反应大致分为三派。
务实派认为这完全可以理解。免费服务总得有人买单,数据中心不会自己付账。与其让广告悄悄渗透进AI的回答里,不如明明白白地展示在界面上。Gmail不也这么干了很多年吗?
警惕派则看到了更深层的隐忧。他们援引“enshittification”(平台劣化)这个概念:几乎所有互联网服务都走过同样的路——先用免费吸引用户,再逐步加入广告,最后连付费用户也难逃其扰。今天说Plus不会有广告,谁能保证明天不会?Netflix、Paramount+、Amazon Prime,哪个不是这样一步步走过来的?
更让人担忧的是广告对AI回答的潜在影响。当你询问“附近有什么好餐厅”,AI会不会优先推荐付了广告费的商家?当你描述身体症状寻求建议,会不会被引导去购买某款保健品?一旦商业利益介入,AI作为“中立信息助手”的可信度就会大打折扣。
还有一派用户选择直接用脚投票。Gemini、Claude、Grok,以及来自中国的Deepseek、Qwen、Kimi等模型,目前都没有广告。虽然有人指出,谷歌作为全球最大的广告公司,Gemini迟早也会走上这条路,但至少现在还有选择。
这件事真正值得思考的,是AI行业的商业模式困境。
OpenAI据说连200美元的Pro订阅都在亏钱。训练和运行大模型的成本是天文数字,而用户已经习惯了免费或低价使用。当风投的钱烧完,当“AGI即将到来”的故事讲不下去,广告几乎是唯一的出路。
有用户一针见血地说:一旦OpenAI开了这个头而没有遭到市场惩罚,其他公司必然跟进。这不是OpenAI一家的选择,而是整个行业的转向。
更深层的问题是:当AI成为我们获取信息、做出决策的重要工具,它的中立性就变得至关重要。搜索引擎的广告化已经让我们付出了代价——前几条结果往往是广告而非最佳答案。如果AI也走上同样的路,我们失去的可能不只是使用体验,而是对一种新型信息工具的信任。
有人说,本地运行开源模型才是最终出路。这话不无道理,但对普通用户来说门槛太高。
或许我们需要接受一个现实:在互联网世界,如果你不是客户,你就是产品。免费的AI从来都不是真正免费的,只是账单还没寄到而已。
苹果Siri换芯:OpenAI出局,Gemini上位背后的真相 | 帖子
一则“OpenAI拒绝苹果Siri交易”的消息在科技圈引发热议,但深挖原始信源后,故事远比标题复杂。
事情的真相是:苹果从去年夏天开始测试Anthropic、OpenAI和Google的模型,最终Gemini凭借性能基准、基础设施可靠性以及能在苹果私有服务器上安全运行的能力胜出。
OpenAI的说法是“有意识地决定不成为苹果的定制模型供应商”,转而专注于开发自己的AI硬件设备。但这种表态很难不让人联想到“分手后说是自己先提的”。
这笔交易的结构值得玩味:Google提供定制版Gemini模型,但推理全部在苹果私有云或本地设备上运行,不向Google回传数据,也不会有任何Google品牌露出。对苹果而言,这是用最小代价换取顶级AI能力的时间窗口;对Google而言,这是“躺赚”——模型授权费到手,推理成本归零。
有人指出,OpenAI真正的顾虑可能是利益冲突:他们正与苹果前设计总监Jony Ive合作开发一款耳后佩戴的AI设备,直接与苹果生态竞争。既然要做对手,自然不便做供应商。
但也有声音认为这是OpenAI的战略失误。想象一下,如果全球数亿iPhone用户每天与OpenAI模型对话,那将是怎样的品牌渗透?现在,这个机会拱手让给了Google——他们已经拿下Android,如今又吃下iOS,移动端AI入口被一家通吃。
更深层的问题是:当AI成为操作系统级基础设施,谁掌握模型,谁就掌握用户体验的底层逻辑。苹果选择外包这一层,是务实还是隐患?OpenAI选择单干,是远见还是傲慢?
答案或许要等到那支传说中的“AI笔”问世才能揭晓。
一则“OpenAI拒绝苹果Siri交易”的消息在科技圈引发热议,但深挖原始信源后,故事远比标题复杂。
事情的真相是:苹果从去年夏天开始测试Anthropic、OpenAI和Google的模型,最终Gemini凭借性能基准、基础设施可靠性以及能在苹果私有服务器上安全运行的能力胜出。
OpenAI的说法是“有意识地决定不成为苹果的定制模型供应商”,转而专注于开发自己的AI硬件设备。但这种表态很难不让人联想到“分手后说是自己先提的”。
这笔交易的结构值得玩味:Google提供定制版Gemini模型,但推理全部在苹果私有云或本地设备上运行,不向Google回传数据,也不会有任何Google品牌露出。对苹果而言,这是用最小代价换取顶级AI能力的时间窗口;对Google而言,这是“躺赚”——模型授权费到手,推理成本归零。
有人指出,OpenAI真正的顾虑可能是利益冲突:他们正与苹果前设计总监Jony Ive合作开发一款耳后佩戴的AI设备,直接与苹果生态竞争。既然要做对手,自然不便做供应商。
但也有声音认为这是OpenAI的战略失误。想象一下,如果全球数亿iPhone用户每天与OpenAI模型对话,那将是怎样的品牌渗透?现在,这个机会拱手让给了Google——他们已经拿下Android,如今又吃下iOS,移动端AI入口被一家通吃。
更深层的问题是:当AI成为操作系统级基础设施,谁掌握模型,谁就掌握用户体验的底层逻辑。苹果选择外包这一层,是务实还是隐患?OpenAI选择单干,是远见还是傲慢?
答案或许要等到那支传说中的“AI笔”问世才能揭晓。
一篇帖子引发的显卡涨价惨案:本地大模型玩家的集体焦虑 | 帖子
Reddit上的LocalLLaMA社区最近上演了一出黑色幽默。
一位用户花500美元淘到了一张冷门的W6800 32GB显卡,测试后发现效果出奇地好,于是兴冲冲地写了篇详细评测分享给社区。结果第二天醒来,他盯上的所有W6800全部售罄,最便宜的价格直接翻倍突破1000美元。
他亲手把自己想买的第二张卡买贵了。
评论区有人搬出了加州淘金热的典故:当年发现金矿的人没有四处声张,而是先悄悄买光了周边所有的铲子、淘金盘和采矿设备,然后才告诉大家这里有金子。最终靠卖工具成为加州第一个百万富翁的,是商人Samuel Brannan,而不是挖金子的人。
这个故事放在今天的本地大模型圈子里,讽刺意味更浓。当显存成为跑大模型的硬通货,每一篇“这卡真香”的帖子都可能成为价格上涨的导火索。有人调侃:别推理了,改行倒卖显卡吧。
社区里关于性价比显卡的讨论也很有意思。MI50凭借32GB显存和1TB/s带宽,曾经160美元就能入手,堪称穷人福音。但软件生态是硬伤,基本只有llama.cpp和ComfyUI能用,想做微调或者跑专业推理引擎就抓瞎了。P40现在200美元以下,3090依然是主流推荐,而Strix Halo的128GB内存让一些人蠢蠢欲动——当然,前提是别再发帖推荐了。
还有人挖出了一个冷知识:AMD V620其实和W6800是同一张卡的服务器版本,eBay上只要450美元,只是没有显示输出。但对于纯跑推理的人来说,这根本不是问题。
这场闹剧背后折射出本地大模型社区的真实生态:大多数人的显存还不到16GB,真正拥有24GB以上推理设备的可能只有几百人,但每个人都在焦虑地寻找下一个性价比之王。价格一旦涨上去就很难降下来,而社区的每一次“安利”都在加速这个过程。
所以下次发现什么好东西,记得先买够再说。
Reddit上的LocalLLaMA社区最近上演了一出黑色幽默。
一位用户花500美元淘到了一张冷门的W6800 32GB显卡,测试后发现效果出奇地好,于是兴冲冲地写了篇详细评测分享给社区。结果第二天醒来,他盯上的所有W6800全部售罄,最便宜的价格直接翻倍突破1000美元。
他亲手把自己想买的第二张卡买贵了。
评论区有人搬出了加州淘金热的典故:当年发现金矿的人没有四处声张,而是先悄悄买光了周边所有的铲子、淘金盘和采矿设备,然后才告诉大家这里有金子。最终靠卖工具成为加州第一个百万富翁的,是商人Samuel Brannan,而不是挖金子的人。
这个故事放在今天的本地大模型圈子里,讽刺意味更浓。当显存成为跑大模型的硬通货,每一篇“这卡真香”的帖子都可能成为价格上涨的导火索。有人调侃:别推理了,改行倒卖显卡吧。
社区里关于性价比显卡的讨论也很有意思。MI50凭借32GB显存和1TB/s带宽,曾经160美元就能入手,堪称穷人福音。但软件生态是硬伤,基本只有llama.cpp和ComfyUI能用,想做微调或者跑专业推理引擎就抓瞎了。P40现在200美元以下,3090依然是主流推荐,而Strix Halo的128GB内存让一些人蠢蠢欲动——当然,前提是别再发帖推荐了。
还有人挖出了一个冷知识:AMD V620其实和W6800是同一张卡的服务器版本,eBay上只要450美元,只是没有显示输出。但对于纯跑推理的人来说,这根本不是问题。
这场闹剧背后折射出本地大模型社区的真实生态:大多数人的显存还不到16GB,真正拥有24GB以上推理设备的可能只有几百人,但每个人都在焦虑地寻找下一个性价比之王。价格一旦涨上去就很难降下来,而社区的每一次“安利”都在加速这个过程。
所以下次发现什么好东西,记得先买够再说。
❤3
一个开源内网穿透工具:PortBuddy 能否成为 ngrok 的平替?| #替代品 #工具
做开发的朋友应该都遇到过这个场景:本地跑着一个服务,想让外网访问测试一下,或者需要调试第三方的 Webhook 回调。这时候内网穿透工具就成了刚需。
PortBuddy 是最近开源的一个内网穿透方案,定位和 ngrok 类似,但在功能覆盖上更全面一些。
核心能力:
- 多协议支持:不只是 HTTP,TCP 和 UDP 也能穿透。这意味着你可以把本地的 PostgreSQL 数据库、游戏服务器、甚至任意 UDP 服务暴露出去
- 默认启用 SSL:HTTP 隧道自动加密,不用额外配置证书
- 支持 WebSocket:实时应用场景不受限
- 私有隧道:可以给隧道加密码,防止被人扫到滥用
- 自定义域名和静态子域名:正式环境也能用
技术栈值得一提:CLI 用 Java 25 配合 GraalVM 编译成原生可执行文件,服务端是 Spring Boot 3.5,网关用 WebFlux,前端是 React。整体架构做了微服务拆分,包括服务发现、SSL 证书自动管理等模块。
使用很简单,三步走:下载 CLI、用 API Token 认证、然后一行命令暴露端口。比如本地 3000 端口的 Web 服务,执行后直接给你一个公网 HTTPS 地址。
定价方面,免费版支持同时开 1 个隧道,团队版 10 美元/月可以开 10 个,额外隧道 1 美元/月。对于个人开发者来说,免费版基本够用。
说实话,内网穿透这个赛道已经很卷了,ngrok、frp、Cloudflare Tunnel 都是成熟方案。PortBuddy 的差异化可能在于:一是 TCP/UDP 支持开箱即用,二是完全开源可以自建。但能否站稳脚跟,还要看后续的稳定性和社区运营。
对于有自建需求、或者想深入了解隧道技术实现的开发者,这个项目的代码结构还是值得一读的。
做开发的朋友应该都遇到过这个场景:本地跑着一个服务,想让外网访问测试一下,或者需要调试第三方的 Webhook 回调。这时候内网穿透工具就成了刚需。
PortBuddy 是最近开源的一个内网穿透方案,定位和 ngrok 类似,但在功能覆盖上更全面一些。
核心能力:
- 多协议支持:不只是 HTTP,TCP 和 UDP 也能穿透。这意味着你可以把本地的 PostgreSQL 数据库、游戏服务器、甚至任意 UDP 服务暴露出去
- 默认启用 SSL:HTTP 隧道自动加密,不用额外配置证书
- 支持 WebSocket:实时应用场景不受限
- 私有隧道:可以给隧道加密码,防止被人扫到滥用
- 自定义域名和静态子域名:正式环境也能用
技术栈值得一提:CLI 用 Java 25 配合 GraalVM 编译成原生可执行文件,服务端是 Spring Boot 3.5,网关用 WebFlux,前端是 React。整体架构做了微服务拆分,包括服务发现、SSL 证书自动管理等模块。
使用很简单,三步走:下载 CLI、用 API Token 认证、然后一行命令暴露端口。比如本地 3000 端口的 Web 服务,执行后直接给你一个公网 HTTPS 地址。
定价方面,免费版支持同时开 1 个隧道,团队版 10 美元/月可以开 10 个,额外隧道 1 美元/月。对于个人开发者来说,免费版基本够用。
说实话,内网穿透这个赛道已经很卷了,ngrok、frp、Cloudflare Tunnel 都是成熟方案。PortBuddy 的差异化可能在于:一是 TCP/UDP 支持开箱即用,二是完全开源可以自建。但能否站稳脚跟,还要看后续的稳定性和社区运营。
对于有自建需求、或者想深入了解隧道技术实现的开发者,这个项目的代码结构还是值得一读的。
❤3