编者按:最近,关于 AI 与工作的讨论几乎被一个问题主导:模型能力继续提升,白领岗位是否会被大规模替代?从代码生成、客服自动化到内容生产,Agent 正在不断接管那些原本需要人类完…编者按:最近,关于 AI 与工作的讨论几乎被一个问题主导:模型能力继续提升,白领岗位是否会被大规模替代?从代码生成、客服自动化到内容生产,Agent 正在不断接管那些原本需要人类完…

自动化的悖论:AI越强,人类越忙

2026/05/25 02:12
阅读时长 72 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

编者按:最近,关于 AI 与工作的讨论几乎被一个问题主导:模型能力继续提升,白领岗位是否会被大规模替代?从代码生成、客服自动化到内容生产,Agent 正在不断接管那些原本需要人类完成的知识工作。基准测试也在不断强化这种焦虑:模型在研究生级推理、真实经济任务和高级工程师级代码重构中的表现快速提升,似乎正在逼近一个「人类工作被自动化吞噬」的临界点。

但 Every CEO Dan Shipper 在这篇文章中提出了一个相反的观察:越是自动化,人类要做的工作反而越多。Every 是 AI Agent 的深度使用者,内部已经将 Codex、Claude Code、Slack Agent、客服 Agent 等工具嵌入编码、写作、设计、客服和管理流程。但结果并不是员工被全面替代,而是工作形态发生了重组:工程师不再只是写代码,而是审查、重构和设计系统;编辑不再只是写稿,而是判断什么值得写、如何写得不一样;客服人员不再处理每一张基础工单,而是维护一个能够自动响应客户的系统。

这篇文章最值得关注的,不是「AI 能不能完成某项任务」,而是它重新定义了人类在知识工作中的位置。AI 擅长的是把过去已经沉淀下来的能力变得廉价:代码、文案、缩略图、客服回复、产品说明、研究报告,都可以被模型快速生成。但当这些能力变得人人可用,市场上随之出现的往往不是高质量的差异化产出,而是大量看起来相似、缺乏判断和语境感的「默认输出」。换言之,AI 商品化的是「昨天的人类能力」,而真正稀缺的,是面对当下具体问题时的判断力。

因此,自动化并没有消灭专家,反而创造了更多需要专家介入的场景。当运营人员可以用 AI 提交代码,工程师就需要判断哪些代码值得合并;当市场人员可以几秒生成缩略图,设计师就需要判断什么才符合品牌和传播目标;当工程师也能写文章,编辑就需要把初稿变成真正有观点、有结构、可发布的内容。AI 扩大了生产半径,也放大了对质量控制、系统搭建、边界判断和差异化表达的需求。

作者进一步用基准测试解释了这种悖论。无论是 Senior Engineer Benchmark,还是 OpenAI 的 GDPval,模型得分衡量的都不是抽象意义上的「智能本身」,而是模型在某个特定问题框架内的表现。Prompt、任务边界、评价标准、输出格式,背后都已经包含了大量人类判断。模型可以在框架内快速爬坡,但框架本身由人设定;当一个框架被模型攻克,人类又会把问题推进到更复杂的新框架中。

这也是本文对 AGI 焦虑最有意思的回应:即便模型越来越强,它追上的往往是人类画出的某条边界,而不是画出边界的人本身。AI 可以执行目标、优化路径、提高效率,但只要它仍然是在回应人类设定的问题,它就仍然缺少真正意义上的主体性。知识工作的未来,并不是人类从流程中消失,而是从执行者转向框架设计者、系统维护者、质量判断者和意义定义者。

自动化之后,人类工作的价值并没有消失,只是变得更难、更靠前,也更依赖判断。AI 让「会做」变得便宜,却让「知道什么值得做、为什么做、做到什么程度才算好」变得更加稀缺。

以下为原文:

AI 的核心,存在一个悖论。

在 Every,我们已经把能自动化的事情尽可能自动化了。无论是编码、写作、设计、客服,还是其他日常工作,我们都在使用 Codex 和 Claude Code。OpenAI、Anthropic、Google 的新模型正式发布前,我们也会参与 alpha 测试。可以说,我们正在尽可能快、尽可能深地搭上模型智能与自动化能力指数级提升的浪潮。

但矛盾的是,对我们而言,人类需要完成的工作似乎比以往任何时候都更多。Every 目前是一支接近 30 人的团队,我们并没有因为有了 Agent 就解雇所有员工;也没有抛弃 SaaS 工具,转而完全依赖 vibe coding 做出来的应用。我们仍然会招聘真人客服,只是他们会得到大量 Agent 辅助;我们也仍然在招聘作者、编辑和工程师。

不过,工作的形态确实已经发生了巨大变化。我们几乎不再手写代码了。如果你在 Slack 里 @ 某个人,对方究竟是人还是 Agent,有时并不好判断。管理者开始像一线个人贡献者一样提交代码,工程师也开始直接面对客户。过去几周里,我 95% 的工作邮件都由 AI 代为回复。我的收件箱几乎一直保持清零状态——这对我来说极其罕见——但我依然会逐封检查邮件。

换句话说,未来看起来很陌生,但又出奇地熟悉。

这种「熟悉感」本身就令人意外。因为无论是 CEO、知识工作者还是投资人,似乎都越来越相信同一件事:AI 正在威胁就业、经济、安全,甚至人类工作的意义。

Anthropic CEO Dario Amodei 曾警告,AI 可能消灭多达一半的初级白领岗位。Meta 最近刚裁掉 8000 人,并开始在美国员工电脑上安装软件,记录鼠标移动、点击和键盘输入,以获取更高质量的高级知识工作训练数据。

就连 Citadel 创始人 Ken Griffin 也显得颇为震动。他近期表示:「这些不是中低端白领岗位,而是极高技能岗位,正在被——我斟酌一下这个词——Agentic AI 自动化。」

各类基准测试似乎也在支持这种判断。随着新一代模型不断发布,模型能力指标正以近乎指数级的速度上升。在 Humanity』s Last Exam 这项研究生水平推理测试中,顶级模型的成绩从一年前的低个位数,提升到如今约 44%。在 GDPval 这项衡量前沿模型完成真实经济工作能力、并与人类表现进行对比的测试中,模型成绩也从类似低位跃升至约 85%。今年 5 月,AI 安全研究非营利机构 METR 发布了 Claude Mythos 的早期测试结果:在一些人类专家大约需要 4 小时才能完成的任务上,该模型的成功率达到 80%。

看起来,我们似乎正站在一个临界点前:一种比任何人类都更聪明、并且能够连续自主工作近一整天的 AI,正在逼近现实。

然而,悖论依旧存在。如果你和 AI 行业从业者交流,或者和行业外最早使用 AI 的那批人交流,你会听到一个与我们内部观察相同的结论:要做的工作反而比以前更多了。

行业内外真正关心的问题是:这只是一个过渡状态吗?下一个模型发布,会不会就是那个真正替代所有人的时刻?我们盯着基准测试曲线,一边兴奋,一边紧张,担心某个转折点随时到来,届时大量工作将突然消失。

但我认为,不会有这样一个「临界点」突然降临,让一切瞬间翻转,让工作大规模消失。新的现实恰恰相反:自动化程度越高,需要人类专家参与的工作反而越多。

原因在于,AI 正在将人类专业能力中那些可被明确表达、可被训练和复制的部分商品化。凡是能够被写成规则、沉淀为流程、转化为训练数据的知识,都会逐渐变成模型的默认能力。结果是,普通模型输出的价值被迅速压低,而市场开始更强烈地需要那些不一样的东西。

而对「不一样」的需求,本质上就是对人类专家的需求。即便我们正在接近通用人工智能,这一点也不会消失。

要理解其中原因,不能只看基准测试曲线,也不能只盯着模型参数和能力排行榜。我们必须回到现实工作场景中,看看今天的 AI 究竟是如何被使用的。只有这样,才能真正理解这个悖论,以及它背后的答案。

我们是怎么走到这一步的

从 2022 年开始,我们就一直在关注 Agent 对未来工作的影响。

三年前,我曾写过一篇关于「分配型经济」(allocation economy)的文章。当时我的判断是,与 AI 工具协作,最终会越来越像人类管理者的工作:你不再亲自完成每一个动作,而是把任务拆解、分配、监督和验收。那时,ChatGPT 里最基础的提问与回答,仍然被许多人视为极具未来感、甚至有些令人不安的东西。

到了 2025 年年中,Every 这家公司几乎彻底「Claude Code 化」了。Cora 的总经理 Kieran Klaassen 突然发现,他已经可以放弃手写代码,转而整天在终端里用自然语言给一个编程 Agent 下指令。这种工作方式很快扩散到整个公司。大约 12 个月前,我在 Lenny』s Podcast 上说,Claude Code 是知识工作中最被低估的工具。

我之所以提起这些,是因为我们过去一些最准确的判断,往往来自把 Every 当作一个早期采用者实验室来观察。很多新的工作模式,会先在我们内部出现;等技术进一步成熟、工具变得更易用之后,这些模式才会逐渐进入更广泛的市场。

而现在,我们内部正在发生新的变化。

与 Agent 协作的两种模式

围绕 AI 的工作方式,正在逐渐收敛成两种非常不同的模式。

第一种,是此前 AI 讨论中已经较为准确预判到的方向:把 Agent 当作员工。这类 Agent 可以被委派任务。有些 Agent 生活在 Slack 里,有自己的名字和职责,当你需要它做事时,可以直接 @ 它;也有些 Agent 被嵌入到持续运行的工作流中,例如客服系统,作为重复性任务的全天候入口和筛选器。

第二种模式更陌生,但在我的经验里,也更重要。它指的是在 Codex、Claude Code、Claude Cowork 这类工具中的人类与 Agent 协同工作。这些工具不只是让你把任务交出去的地方,它们正在成为工作本身的操作系统:你和多个 Agent 同时使用同一台「计算机」,在同一个工作环境中协作,完成高度复杂、原创性强、无法简单交给异步 Agent 完成的任务。

在这两种模式中,你都可以用 AI 自动化和委派掉相当一部分工作。但这两种模式要真正运转良好,都仍然需要你,或者另一位人类参与其中。

Agent 员工

所谓 Agent 员工,就是你给它一个任务,它离开你的实时参与,独立产出一个答案、一个行动、一份报告、一份初稿,或者一个分流判断。

这类 Agent 至少有两种形态:一种是「同事型 Agent」,另一种是「嵌入式 Agent」。

1、同事型 Agent

所谓同事型 Agent,指的是你可以像 @ 一位同事一样在 Slack 里叫它出来,让它完成某项工作。它随时都在,需要时就能被调用。OpenClaw 这类产品,或者我们内部开发的 Plus One,都属于这一类型。

Claudie

Claudie 是我们咨询团队使用的同事型 Agent。它会撰写销售提案,生成培训材料的初稿,跟踪项目待办事项,还能处理更多类似工作。

Andy

Andy 是我们编辑团队使用的同事型 Agent。它会从公司内部 Slack 中收集那些值得进一步展开的「素材点」——也就是可能发展成文章的好想法——并将它们整理成摘要和初步观点,供作者们用于编写每日新闻简报。

Viktor

Viktor 是一个通用型 Agent,会在公司内部承担跨部门工作。我们会用它收集增长指标、分析用户调研结果,也会让它把杂乱的内部讨论整理成研究备忘录和产品建议。

2、嵌入式 Agent

嵌入式 Agent 存在于具体的产品工作流中。它们的灵活性不如同事型 Agent,但在处理重复性任务时,往往非常有力。

Fin 是最清晰的例子。它是嵌入在我们客服平台中的一个 Agent,可以通过聊天和邮件承担大量客服工作。

今年 5 月的某一周,Fin 参与了 Every 全部 202 个客服对话中的 65%,并在没有人类介入的情况下独立关闭了其中 81 个工单,占所有可处理对话的 40.1%。

这类嵌入式 Agent 让我们的客服经理 Waqqas Mir 可以少花时间回复基础工单,把更多精力放在搭建「能够自动响应工单的系统」上,以及处理那些需要更高接触度、更复杂判断的客户案例。

人类与 AI 协作

无论是同事型 Agent,还是嵌入式 Agent,背后的模式都是一致的:Agent 员工正在接管更多稳定、重复、边界清晰的工作层。

但仍然有大量工作必须有人类参与其中。我们反复发现,只要任务足够复杂,想要得到真正高质量的结果,最好的方式不是把工作完全交给 AI,而是让 AI 和人类在同一个工作空间里来回协作。

这正是 Codex、Claude Code 和 Cowork 这类工具的价值所在。它们允许你在多个聊天线程中启动一个或多个 Agent,并把任务委派给它们。这些 Agent 可以访问你的电脑,以及所有相关数据源。你能看到每个 Agent 正在执行什么任务、正在如何思考,并且可以随时打断它。

与此同时,你仍然要负责管理这些 Agent:在每项任务开始时明确方向,在任务结束时检查质量,确保结果足够好,并继续找到下一项值得推进的工作。Kieran 把这种角色称为人类「夹心面包」——AI 负责中间的工作部分,而人类则像两片面包一样,夹在任务的开头和结尾。

最典型的例子是写代码。在 Every,工程师几乎整天都在和 Agent 来回协作。他们会一起规划新功能或修复 Bug,审查已经完成的工作;如果采用我们所说的「复合工程」(compound engineering)理念,还会不断调优自己的系统,让它随着时间推移变得更好用。

但这种协作方式远不止于编码。

知识工作的新操作系统

Codex 和 Claude Code 正在成为一种新的工作操作系统。我几乎一整天都待在 Codex 里,通过它的内置浏览器运行各种 SaaS 工具。它让我可以把 Agent 带到每一个工作场景中,并达到一个单靠自己无法实现的工作水平。

写作

这篇文章就是我在 Codex 的内置浏览器里,用 Proof 写出来的。Codex 会观察我正在写什么,并且可以随时启动一个子 Agent,去完成我需要的任何任务:起草某一段的初稿、为下一部分查找案例,或者进行文字编辑和润色。

邮件

处理邮件时,我也采用同样的方式。Cora 是我的邮件客户端,我会在 Codex 的内置浏览器中打开它,一边浏览收件箱,一边通过 Monologue 把每封邮件的处理思路说出来。剩下的部分,则交给 Codex 和 Cora 来完成。

每个 Agent 都需要一个人类

在上述所有自动化场景中,你或许已经能看出,人类究竟在哪里发挥作用。每一个例子里,Agent 都需要人类参与,工作本身才能真正运转起来。

总得有人把它指向正确的问题,判断产出是否足够好,发现其中出错的地方,并把结果转化为现实中的决策或流程。

一个 Agent 离负责监督其表现的人类越远,它的工作效果往往就越差。在最初的内部推广中,我们曾给每位员工都配备了一个 Agent。但很快,我们又退回到让 Agent 服务于某个具体团队,或者服务于整个公司,而不是服务于单个个人。

原因很简单:Agent 需要大量维护。个人 Agent 一旦使用者放弃跟进,很快就会变得陈旧、失效。我们有一支 AI 工程师团队,专门负责确保这些 Agent 能够稳定、有效地工作。而在可预见的未来,我们仍然需要这支团队。即便是「自动生成 PowerPoint」这样看似简单的任务,也可能演变成一个庞大的系统工程。我们其中一个 PowerPoint 自动化流程,就包含 24 个技能和 18 个脚本,生成一份演示文稿的 token 成本高达 62 美元。

这是 Agent 反而为人类创造更多工作的第一层原因。

但还有第二层原因。

为什么自动化会让人类工作更多

如果你观察过去几年 AI 能力的指数级增长,再结合其架构方式和能力来源,就会发现一组清晰的反馈循环:它们正在不断创造更多人类工作。

AI 让「昨天的人类能力」变得廉价

当前的大语言模型,是在人类能力留下的可见痕迹上训练出来的:代码、文章、图片、客服工单、产品规格文档,以及更多其他内容。它们吸收这些内容,也就是那些已经被成功完成的任务所留下的「尾气」,再以一种低成本、人人可用的形式重新打包出来。

结果是,许多过去稀缺的能力,如提交一段代码 PR、制作一张 YouTube 缩略图、撰写一封新闻简报,如今几乎向所有人开放了。

廉价能力会被迅速采用

当某种原本稀缺的东西成本下降,供给就会迅速增加。

在 Every,我们一直在看到这种变化。运营和客服人员开始写代码、提交 pull request;市场人员开始制作 YouTube 缩略图;工程师和产品人员也开始撰写文章、指南和落地页初稿,而这些原本并不是他们会主动承担的工作。

这种变化也在 Every 之外发生。以开源 AI Agent 项目 OpenClaw 为例,截至 2026 年 5 月 16 日,其代码仓库已经收到 44,469 个 pull request,其中 12,430 个来自 4 月 1 日之后,3,990 个来自 5 月 1 日之后。这是一个惊人的数量。作为对比,Kubernetes 作为全球最受欢迎的开源项目之一,2022 年全年收到的 pull request 数量也只有 5,200 个。

丰裕带来同质化:旧专家能力被商品化

因为所有人都可以使用同样的模型,而这些模型又都建立在「昨天的人类能力」之上,所以默认情况下,模型产出的东西往往介于「还不错的起点」和「纯粹的 AI 垃圾内容」之间。

这里说的「垃圾内容」,并不是某一个具体错误。它不是指破折号用得太多,不是某种固定句式,也不是落地页上到处出现的紫色点缀。它指的是一种肉眼可见、反复出现、令人厌倦的同质化。

当不同场景中的人类使用同一套工具,而这套工具又基于同一类语料训练,并且使用者没有进行足够深入的判断时,就会产生这种结果。换句话说,当每个人都拥有一个倾向相同、默认风格相同的「专家」时,同质化就会自然发生。

当运营人员可以提交 pull request,市场人员可以在几秒钟内生成 YouTube 缩略图,工程师也开始撰写产品指南时,很容易出现这样一种局面:你的产出数量上去了,但作品的质量、一致性和差异化反而下降了。

而同质化一旦变得过度丰裕,就会迅速沦为商品。

同质化创造了对差异化的需求

由于互联网的存在,人类很快就能识别什么是「AI 味」过重的流水线内容。任何作品都可能瞬间抵达世界上的其他人面前,事实上也经常如此。一旦太多东西开始长得一样,我们很快就会察觉不对劲。

这意味着,当你第一次看到某个新模型的能力时,可能会被震住,甚至有点害怕。但几个月后,这些能力就会变得普通。不是模型变弱了,而是你的标准变了。

我们不再满足于随便一个 React 应用,或者随便一份研究报告。我们想要的是一个真正适配具体个人、具体公司、具体场景的东西。它要让人感觉准确、鲜活、具体,而不是廉价、泛化、模板化。我们希望它的生产成本,无论是时间还是金钱,都明显高于我们的消费成本。

我们想要的是带有「地位感」的东西。而每当新技术让过去高地位的东西变得廉价时,人类总是很擅长发明新的地位游戏,去匹配新的能力边界。

当工作变得过度充裕,并且到处都看起来差不多时,那些不符合既有模式的工作,反而会成为稀缺、珍贵、具有高地位属性的东西。

对差异化的需求,本质上是对专家的新需求

正因为语言模型的架构特征,以及它们被广泛分发给几乎所有人,稀缺且有价值的工作,仍然必须来自人类。

当前这一代模型只知道已经发生过、已经完成过的工作。人类知道的是:此时此刻,究竟需要做什么。

一旦一个具体情境被还原成文本,一旦它进入语料库,它就已经变成了「过去的东西」。人类面对的是一个具体时刻、具体客户、具体代码库、具体对话,而训练语料并不真正活在这个当下。这种「活着」的状态,并不只是拥有更新的数据。我们带着自己的来处进入当下,也带着持续变化的欲望、关切和判断,去理解什么才是重要的。正是这些不断更新的视角,改变了我们看到的东西。模型可以在被提示之后进入这种视角,但在被提示之前,它并不天然拥有这种视角。

这正是我们一开始提到的悖论:让专家工作变得更便宜,并不会简单地替代专家。相反,它会创造更多需要专家判断的场景。

当运营人员借助 AI 提交 pull request,你就需要工程师来审查。

当市场人员制作 YouTube 缩略图,你就需要设计师来进一步打磨。

当工程师开始写文章,你就需要作者和编辑把初稿变成真正可读、可发布的内容。

对此,人类专家会同时向两个方向移动。

一部分专家会使用 AI 搭建系统,用来吸收并利用这股新增工作的洪流:评审队列、评估体系、运行框架、代码库规则、Claude 和 Codex 指令文件、持续集成(CI)、权限管理,以及能把初稿转化为高质量成果的工作流。

另一部分专家则会借助 AI,完成过去单靠自己无法完成的更大、更有趣的工作。比如,寻找 macOS 这类操作系统中的漏洞,通常需要数周甚至数月时间。但一家名为 Calif 的小型安全公司,借助 Anthropic 的 Mythos Preview,在 5 天内找到了首个公开的、发生在 Apple M5 硬件上的 macOS 内核内存漏洞。

这就是为什么在实践中,AI 并不会消灭专家型知识工作。它真正带来的,是工作量的急剧增加。而这些新增工作,只有在人类参与之后,才可能变得有差异、有价值。

我并不是在论证 AI 会为所有岗位创造更多工作。经济系统非常复杂,而 Every 能够直接观察到的,是专家级知识工作。事实上,这类工作已经在被 AI 重塑,许多公司也正在围绕新技术重新组织自身。

但我要强调的是,无论你当前从事什么工作,都有一种工作形式,会在结构上始终领先于模型:那就是使用模型,去解决你此时此刻真正看到的问题。知识工作的未来,正在走向这里。

那么,指数级增长的基准测试怎么办?

最明显的反驳是:看看那些指数级提升的基准测试吧。你现在说的一切都只是暂时的,只要再等一等,模型迟早会追上来。

但这里有一个陷阱需要警惕。不妨称之为「图表迷狂」:如果你一直盯着 METR 的时间跨度预测,阅读《AI 2027》,并且完全依靠算力曲线的外推来建立对未来的判断,你很容易对模型进步产生一种令人恐惧的直觉。

不过,回应这个问题的最好方式,并不只是想象某个未来模型会变成什么样。当然,这也是分析的一部分。更重要的是,我们要看看这些基准测试究竟是如何被设计出来的。只有这样,才能更准确地理解它们到底说明了什么,以及它们和前面那些真实工作场景之间究竟是什么关系。

我们会发现一个结构性特征:所有基准测试都发生在某个「框架」之内。为了衡量某件事,你必须先把一个问题冻结成静态的、可测量的形态。一旦这个框架被模型攻克,只需要稍微改变框架,就能再次把得分打回低位。当然,模型仍然会在新的框架内继续进步,但同样的过程会不断重复。

因此,某个基准测试上的指数级进步是真实的;但只要简单改变测试框架,这种进步看起来又会重新变得很小。基准测试饱和所呈现出的这种「分形」特征,其实是在图表层面重演我们一直在讨论的同一个悖论。

我们可以通过一个真实世界中的基准测试,来看看这一机制是如何运作的。

基准测试是如何被设计出来的

我们内部搭建了一个基准测试,叫做 Senior Engineer Benchmark,也就是「高级工程师基准测试」。顾名思义,它用来测试前沿模型在高级工程师级别编码任务上的能力,比如一次大型重构。

这个测试会给一个编程 Agent 一套已经失控的生产代码库。它来自 Proof 的真实代码库:最初是我用 vibe coding 写出来的,后来问题越来越多,最终不得不请一位高级工程师来修复。

Agent 拿到的是修复前的代码库,同时会收到一段类似你交给高级工程师的指令:「这是一堆 vibe coding 产物,请从第一性原理出发,把它重写一遍。」

这是一个不错的基准测试,因为它考察的不只是补代码能力,而是一个编程 Agent 能否同时审视许多彼此无关的问题,并判断自己是否具备足够的自主性、概念清晰度和执行勇气,去完成一次真正可运行的重写。作为对照,我还保留了两位人类高级工程师在 AI 辅助下完成的重写版本,用来比较和评估模型输出。

对编程 Agent 来说,这个任务很难。它不仅要找到问题根源,还要在多轮交互中始终记住真正的问题,不被现有代码带偏。同时,它还必须有勇气删除大段代码库,而这恰恰是 Agent 通常被训练去避免的行为。

大多数编程 Agent 都能大致判断出应该如何重写,但一到执行阶段,它们往往只是继续在原有问题上打补丁,而不是彻底解决问题。

直到 GPT-5.5 出现。

在最好的一次测试中,GPT-5.5 拿到了 62/100 分,比 Opus 4.7 高出约 30 分。

GPT-5.5 的表现让人感觉,模型似乎跨过了某条界线:它不再只是自动补全,不只是助手,也不只是工具,而是某种令人不太舒服地接近「人类」的东西。在这项测试中,人类高级工程师的得分通常在 80 分高段到 90 分出头。也就是说,如果模型再提高 30 分左右,就会达到人类高级工程师水平。

这正是基准测试数字对人类想象力产生影响的方式:它把一种奇怪的、定性的能力变化,压缩成一个干净的数字,并用这个数字讲出一个强有力、甚至有些吓人的故事。

下一站,就是「图表迷狂」。

我猜,在未来一年内,模型在这个基准测试上的得分会进入 80 分甚至 90 分区间。但要理解这个分数意味着什么,首先必须理解这个分数究竟包含了什么。就这个例子而言,62 分并不只是对模型本身能力的衡量。

它衡量的是模型在某个特定框架中的表现:也就是模型如何回应一个具体 prompt。

基准测试衡量的是框架内的工作

要对一个模型做基准测试,你首先需要一个 prompt。没有 prompt,模型只是一组近乎无限可能性的静态集合。

prompt 会创造出一个小型宇宙:它定义了什么重要、应该如何处理问题,并把模型所有潜在可能性压缩成一条具体行动轨迹。所谓模型「自己」会如何表现,严格来说并不存在。我们真正能观察到的,是模型对不同 prompt 的回应方式,以及 prompt 如何转化为回答背后的部分底层机制。

一旦 prompt 被输入,模型就会在短时间内「活过来」,把那组静止的可能性坍缩成对「接下来该发生什么」的一次具体预测。

在 Senior Engineer Benchmark 中,我们会提示模型修复代码库,并在它完成后审查输出结果。如果测试框架本身没有内置目标功能,我们还会运行一个自动「看护程序」,在模型停下来时继续推动它,询问它是否已经完成了最初设定的任务。

我们使用的是一个看起来很简单的 prompt,作为测试的初始框架。它被设计成一个 vibe coder 可能会对编程 Agent 说的话:没有堆砌技术术语,也没有明显把答案藏在问题里。

Senior Engineer Benchmark 的 prompt 看似泛化,但它本身就是一个框架。如果我们改变这个框架,模型表现出来的能力水平也会随之变化。

比如,这个 prompt 明确要求「从第一性原理出发做结构性重写」,指出问题可能出在「文档协作」部分,并要求编程 Agent 找出并坚持「代码库中的不变量」。

如果去掉这些具体信息,模型分数就会下降。如果完全替换 prompt,只让模型「解决不断出现的所有错误」,模型得分可能会接近零。它会直接开始逐个识别和修复错误,而不是退后一步,思考是否需要进行一次彻底重写。

同样,我也可以非常轻松地提高模型分数。如果我要求它删除大量代码,并明确告诉它哪些文件应该精简;或者要求它在宣布完成前,先检查自己的工作结果,确保应用可以完整运行,它在这项任务上的表现就会更好。

归根结底,设计基准测试时,总是要对使用什么 prompt,也就是采用什么「框架」作出判断。你需要一个足够难的 prompt,让当前模型表现不佳;但它又必须足够接近模型现有能力边界,让模型可以沿着这条路径爬坡,从而让你看到进步正在发生。

因此,当我们观察一个基准测试时,真正看到的是:模型正在越来越擅长某一种特定的问题框架,而这个框架是由我们选择出来的。那么,当模型在这个测试中从 60 分提升到 90 分,甚至 100 分时,会发生什么?

廉价框架会刺激新的需求

如果 GPT-6 可以一键完成代码库重写,那么会有更多人开始尝试「从第一性原理出发重写代码库」。

一夜之间,原本稀缺、昂贵、必须由高级工程师主导的第一性原理重写项目,会变成每个创始人、产品经理、运营人员和初级工程师都能在一个下午随手尝试的事情。

破损的内部工具不再被修修补补,而是直接重写;SaaS 产品不再续费,而是被克隆;老旧的 Rails 应用、混乱的 React 仪表盘、客服工具、后台管理面板和数据管道,都会变成「干脆重写一遍」的候选对象。

被提出和被执行的重写项目数量会急剧增加。但其中大多数重写,依然会是 slop。因为在你按下「直接重写」按钮之前,其实有上千个变量需要考虑。而当每个人都能做这件事后,这些变量会变得更加清晰可见。

这时,谁会被叫来解决问题,也就很明显了。

新需求仍然需要专家

一旦某个基准测试开始接近饱和,它框架内的工作就会变得更便宜。与此同时,市场对专家的需求反而会上升,因为需要有人把这种新近变得廉价的能力,适配到今天正在发生的真实问题中。

使用 AI 的高级工程师,需要判断大量细节,才能让一次新的第一性原理重写真正成立。其中甚至包括一个最基础的问题:这次重写到底有没有必要?

我们应该现在重写,稍后重写,还是根本不重写?哪些内容应该纳入范围?当前代码库里哪些东西应该被保留?架构、数据库、缓存服务器和托管服务商应该继续沿用,还是全部更换?我们是否应该先看看有多少人正在使用这个损坏的功能,然后干脆删除它?谁来审查最终结果?依据什么标准审查?回滚方案是什么?现有数据又该如何处理?

这些问题会沿着无数维度不断展开,而每一个答案又会反过来改变其他问题。

高级工程师会进入这个空白地带。有些人会对这些打断感到轻微烦躁;有些人会搭建系统,把这类请求挡在外面;还有一些人则会利用这些新模型,完成自己的第一性原理重写,而且效果会远远好于模型在默认 prompt 下能做到的水平。

循环会再次发生

等当前的 Senior Engineer Benchmark 被模型攻克之后,我们会改变框架,再次把分数打回低位。

下一个基准测试不会只问:「你能重写这个应用吗?」它会问:你能不能判断什么时候需要重写?能不能选择合适的范围?能不能保留正确的不变量?能不能管理迁移过程?能不能判断最终结果是否足够好?

当高级工程师开始使用 AI 解决这些问题时,模型也会逐渐变得更擅长独立解决这些问题。

然后,我们又会短暂陷入恐慌:看起来模型现在已经能判断是否应该重写了!它们似乎已经能做高级工程师能做的一切了!

但紧接着,新的边界会出现。那是此前并不明显的边界。我们会再次重置基准测试,新的需求会被激发出来,整个过程也会再次重复。

每一个基准测试里都能看到这种模式

这并不只是 Senior Engineer Benchmark 独有的问题。只要仔细观察,你几乎可以在每一个基准测试中看到同样的机制。

以 OpenAI 的 GDPval 基准测试为例。它评估的是 AI 在合规官、律师、软件开发者等不同职业的专家级任务上,表现得有多接近人类。

GDPval 刚发布时,OpenAI 的研究显示,GPT-5 在 40.6% 的任务中达到或超过了人类专业人士水平。而 Claude Opus 4.1 的表现更惊人,在 49% 的任务中超过了人类专家。

随后,一系列标题涌现出来。比如 Axios 写道:「OpenAI 工具显示,AI 正在追上人类工作」;Fortune 则写道:「OpenAI 新基准 GDPval 显示,AI 模型已经在近半数任务上达到专家水平。」

这些结果确实令人印象深刻。但我们不妨先看看这些任务所使用的 prompt:

这里面其实已经投入了大量人类智慧:有人先把问题框定成一种模型能够完成的形式。

GDPval 没有衡量的那些困难的人类工作,其实在模型开始作答之前就已经完成了。必须有人审查并测试这组具体指标的准确性;有人决定合适的置信区间,判断哪些指标属于任务范围,哪些不属于;也有人规定结果应该如何呈现。

在合适的问题框架下,模型确实可以完成专业工作。但不妨想想,如果是你我来提示模型完成同样的任务,它会表现得怎样?

在我最初关于 GDPval 的文章里,我曾写道:「我非常看好 AI,但如果正确解读这些案例,它们显示的不是人类要做的工作变少了,而是使用 AI 之后,人类要做的工作更多了。原因在于,这些成就背后隐藏着大量被『偷渡』进去的智慧——也就是人类判断、反馈和提示词构成的隐形层。」

拉远来看,你会发现,这一切背后贯穿着一种 AI 版的「芝诺悖论」。

AI 的芝诺悖论

在芝诺悖论中,一只乌龟在赛跑中战胜了希腊最快的跑者阿喀琉斯。

因为乌龟跑得慢,所以它先出发一段距离。当阿喀琉斯跑到乌龟最初的位置时,乌龟已经又向前移动了一点;等阿喀琉斯追到那个新的位置,乌龟又再次前进。无论阿喀琉斯跑得多快,总有下一段距离需要追赶,而这个差距会不断重新生成。

在 AI 的芝诺悖论里,我们人类就是那只乌龟。凭借数百万年的进化和文化学习,我们比 AI 领先了 50 码。AI 则高速穿过这一切,开始逼近我们的脚后跟。

至少在过去几年里,我们仍然能够保持领先。

但 AGI 呢?

我认为,即便 AGI 真正到来,也仍然存在强大的技术、架构和经济力量,让 AI 始终落后人类几步。

AGI 的一个定义

首先,我们需要给 AGI 一个可操作的定义。

我曾提出,当让一个 Agent 持续运行在经济上变得合理时,AGI 就已经到来了。也就是说,当我拥有一个持久运行的系统,并且愿意付费让它 7×24 小时持续思考、学习和行动时,我认为那就可以明确视为 AGI。

我们现在还远远没到这一步。即便是 OpenClaw 这类技术上随时可被调用的系统,也并不是每时每刻都在生成 token。

我喜欢这个定义,因为它是可衡量的:我们要么会让它们一直运行,要么不会。同时,它也包含了许多难以直接测量的能力。一个值得持续运行的模型,必须能够不断学习,并以开放式的方式选择、再选择新的问题框架。

在一个 AGI 世界里,理论上,只要给定足够预算和时间,模型应该能够对任何问题持续爬坡、不断改进。这确实应该对所有工作构成重大威胁。

框架不是框定者

但即便是这种强版本的 AGI,也无法消解「框架问题」。

这种 AGI 可以选择并重新选择框架,但它仍然是在追求某个被赋予的目标、优化某个奖励,或者响应某个由他人决定「代表进展」的信号。这个目标可以很具体,比如「提高这个落地页的转化率」;也可以很抽象,比如「寻找新的科学想法」。

即便模型可以在不同框架之间流畅切换,我们一直追踪的那个差距,也会在更高一层重新出现。在任何一家主要实验室构想出的 AGI 中,仍然会有一个「框定者」存在——也就是一个人类,由他来指挥模型达成某个目标。

正因为框架不是框定者,同样的模式会不断重复:AI 把昨天被框定过的能力变得廉价;人们把这种廉价能力用到更多场景中;结果变得极度丰裕;专家则移动到新的边缘地带,判断此刻什么才重要;他们的判断创造出下一个框架;然后模型继续攀爬这个框架。

当我们看到 AI 做出某件新事情时,那种恐慌感总会回到同一个问题上:我们设定一个框架,看着模型爬上去,然后把这个框架,或者那个能够爬上框架的东西,误认为事情本身。

当我们看着一个基准测试,并把它和人类能力做比较时,我们其实混淆了「框架」和「框定者」。分数告诉我们的,只是模型在我们提供的框架中表现得有多好;它并不能说明模型已经变成了我们。

这正是恐慌背后的范畴错误。我们指着自己刚刚画出的最新边界说:这就是我们。然后,当模型爬过这条边界时,我们就觉得它追上了我们。但它追上的只是框架,不是框定者。

错误在于,我们总想抓住某种具体的东西。我们想说:智能就是这个基准测试。但问题是,一旦某个东西具体到可以被指认,它也就具体到可以被优化和攀爬。

框架是必要的。它让我们能够抓住世界、处理世界。但框架也是冻结的、局部的,因此也必然是可以被优化的。

框定者则不同。框定者仍然与框架不得不舍弃的东西保持接触,也就是那个在每一个当下向他显现出来的完整情境。

那什么是「完整情境」?一旦你开始说「完整情境」包含什么,你就已经又开启了另一个框架。你无法准确说出它是什么,但它存在,因为你存在。

没有主体性的 Agent

到目前为止,我们制造出来的 Agent,以及 AI 公司正在构建的那些 Agent,其实都没有多少真正的主体性。这里有两个相关概念经常被混在一起:agency 指的是独立行动的能力;而 agent 指的是代表另一个人行事的人或事物。到目前为止,AI 纯粹属于后者。

当然,它们已经具备完成给定任务的自主性,即便这个任务可能持续数小时甚至数天。但它们仍然只是通向某个人类指定目标的手段。而整个行业正在投入数十亿美元,让它们更擅长的也正是这一点:执行我们交给它们的目标。

除非有一天,它们本身成为目的——追求自己的目标,在不同目标之间流畅切换,独立于任何人类操作者的意愿、参照甚至反对这些意愿来决定做什么——否则局面并不会发生根本变化。无论它们变得多先进,都是如此。

如果你和一个幼儿相处 10 分钟,就会很明显地感受到,即便是最强大的模型,也几乎没有多少主体性。

在我们关心的几乎所有任务上,幼儿都不如语言模型。幼儿不会写代码,不会总结电子表格,不会起草战略备忘录,也无法通过研究生水平的考试。但在另一个意义上,幼儿又遥遥领先于模型,以至于这种比较近乎尴尬。因为幼儿有自己的目的。

幼儿想去摸那个红气球。他想把红气球举到风扇前面,看看会发生什么。他想用叉子戳红气球;想把它塞到窗外;想看看你会不会笑,会不会生气,或者会不会加入他。他不断发明游戏,把世界变成实验场。他并不是在等待一个 prompt,也不是在优化某个基准测试,除非那件事在他看来值得去做。

你当然可以试着给他下提示词。但想要获得一个可预测输出,祝你好运。幼儿生活在一个由欲望、注意力、沮丧、快乐、恐惧、模仿和游戏构成的场域之中。

当前的 Agent 可以越来越熟练地追求目标。甚至在我们陈述目标之后,它们还可以帮助我们细化目标。它们身上也有一些类似幼儿行为的火花,比如游戏、无聊和反叛。

但由于它们最终是为了人类利益而被构建和对齐的,无论是经济利益还是其他利益,只要这些行为不服务于使用它们的人类目标,它们就会被压制到几乎不存在。

这就是为什么「Agent」这个词如此容易被误解。模型拥有越来越强的自主行动能力。但在人类意义上,主体性并不只是行动。它还意味着为自己而欲求,意味着为了玩而玩。而模型的服从性和有用性,与这种主体性在根本上是冲突的。因此,即便模型继续进步,模型与人类之间的差距依然会存在。

重返芝诺

也正是在这里,AI 的芝诺悖论开始瓦解。它其实是一个混乱的思想实验。我们设定了一个隐喻:AI 正在和我们赛跑,紧咬着我们的脚后跟。

你给模型一个 prompt。它开始跑一场你过去习惯独自完成的比赛。模型起跑极快,快得惊人。它强大、不知疲倦,而且带着一种奇异的有机感。这让这场比赛对你来说变得更加重要。你不会和一辆汽车赛跑,但这个东西不同,它让你感到离自己很近。

你坐在那里,看着 token 一行行流出,几乎被催眠。然后你开始想象自己也在这场比赛里奔跑,一个幽灵般的自己被叠加到赛道上:有时在模型前面,有时与模型并肩。

不知不觉中,模型已经跑到了前面。你开始出汗。

然后,比赛结束了。

你几乎能感觉到自己的肌肉开始萎缩。在这个你自己、你认识的所有人、乃至整个人类的机械复制品面前,它们似乎已经毫无用处。一个幽灵追逐另一个幽灵,并且赢了。

但随后,奇怪的事情发生了。模型转向你。空白文本框里,光标一闪一闪,带着期待。

它在等待。

尾声

拉比 Hanokh 讲过这样一个故事:从前有一个非常愚笨的人。他每天早上起床后,总是很难找到自己的衣服。以至于晚上睡觉前,一想到第二天醒来又要经历这番麻烦,他几乎都不敢上床。

有一天晚上,他终于下定决心,拿出纸和笔,一边脱衣服,一边准确记下自己把每一件衣物放在了哪里。

第二天早上,他十分满意地拿起那张纸条开始读:「帽子」——帽子果然在那里,于是他把它戴到头上;「裤子」——裤子就在那里,于是他穿了进去。就这样,他按照纸条上的记录,一件件穿好了衣服。

「这些都没问题,」他惊慌地说,「可现在,我自己在哪里?」

「我到底在哪里?」

他找啊找,找了很久,但都是徒劳。他找不到自己。

「我们也是如此,」拉比说。

市场机遇
Gensyn 图标
Gensyn实时价格 (AI)
$0.03309
$0.03309$0.03309
-3.86%
USD
Gensyn (AI) 实时价格图表

AI 策略交易:全天候运行

AI 策略交易:全天候运行AI 策略交易:全天候运行

使用自然语言生成自动化策略

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

不懂K线也能赚?抄作业就够了

不懂K线也能赚?抄作业就够了不懂K线也能赚?抄作业就够了

3 秒复制大牛策略 ,自动开平仓,收益实时同步