文章作者、来源:腾讯科技
美国当地时间5月19日,OpenAI联合创始人、前特斯拉AI负责人安德烈·卡帕西(Andrej Karpathy)宣布加盟Anthropic。
“我加入了Anthropic。”卡帕西在X平台上写道,“我认为未来几年将是大语言模型前沿发展最具决定性意义的阶段。我非常期待加入这个团队,重回研发一线。”
根,卡帕西将在预训练团队负责人尼克·约瑟夫(Nick Joseph)的统筹下,组建一支新团队,核心使命是利用Claude来加速预训练研究。
换言之,他的工作是让AI来优化AI的训练过程本身。
这个方向在AI安全领域有一个流传已久的正式名称:递归自我改进(Recursive Self-Improvement,RSI)。其核心逻辑是,AI系统通过不断优化自身的训练过程,实现能力的迭代跃升。
随着算力、数据和模型能力同步跨越临界点,RSI正在被顶尖AI实验室付诸实践,成为真实的工程项目。
Karpathy的职业轨迹本身解释了他为什么是这个岗位的合适人选。
他是OpenAI最早的研究科学家之一,2015年至2017年专注于深度学习与计算机视觉。2017年被埃隆·马斯克挖到特斯拉出任AI总监,主导Autopilot视觉团队,将神经网络从论文推到了数百万辆量产车上。
在特斯拉的五年中,他主导构建了被称作“数据引擎”的闭环系统本质上是一套工程化的“模型自我改进”流水线,只不过改进对象是感知模型而非语言模型。他在2022年从Tesla离职,于2023年短暂回到OpenAI,在那里待了约一年后再次离开,2024年创办AI教育公司Eureka Labs。
预训练是大模型流水线中最昂贵、最依赖算力,也最依赖工程经验的环节。TechCrunch评价Karpathy是“少数能同时跨越LLM理论和大规模训练实践的研究者之一”。
Karpathy入职的时间点并非偶然。两周前,Anthropic 联合创始人Jack Clark在他的newsletter《Import AI》第455期中给出了详尽推演。
他写道,自己花了几周时间阅读数百份公开数据来源,得出的判断是:到2028年底,递归自我改进发生的概率为60%。
Clark的论证建立在一组可验证的基准趋势上。
在测试AI能否解决真实GitHub问题的SWE-Bench上,最佳成绩从2023年底Claude 2的约2%上升到Claude Mythos Preview的93.9%;METR测量的“AI可靠完成任务的时间跨度”从2022年GPT-3.5的约30秒上升到2026年Opus 4.6的约12小时;CORE-Bench,测试AI复现学术论文的基准,在2024年9月推出时最高分仅21.5%,到2025年12月已被Opus 4.5以95.5%“解决”。
在Anthropic内部一项让模型优化小型语言模型训练实现的基准上,加速倍数从2025年5月Opus 4的2.9倍提升到2026年4月Claude Mythos Preview的52倍,而人类研究员在同一任务上做到4倍加速需要4到8小时。
Clark的论点是,AI研发中“99%的汗水”,包括数据清洗、实验运行、参数搜索、kernel优化已经落入当前模型的能力范围。即便AI暂时缺乏颠覆范式的创造力,仅靠自动化工程部分就足以显著加速迭代。
5月7日,Anthropic正式发布《The Anthropic Institute研究纲要》,把“AI for AI R&D”列为四大研究方向之一,明确提出要构建测量AI研发加速度的telemetry,并将其作为RSI的早期预警信号;同时探讨如果“智能爆炸”逼近,存在哪些干预节点,应该由政府、公司还是其他主体行使干预权。
Clark对Axios表示,“我的预测是,到2028年底,更有可能出现这样的AI系统:你可以对它说‘去做一个更好的你自己’,它就完全自主地去完成。”
工程层面的伏笔更早。
2026年4月14日,Anthropic Fellows项目公开了一项实验:测试Claude Opus 4.6是否能在“弱到强监督”这一对齐研究关键问题上自主推进,包括分解任务、生成假设、设计评估、迭代优化。让AI agent整建制承担一项研究过程。
竞速在多条战线同时进行。
除了文章最开头提到的,前Meta FAIR研究总监田渊栋等八位创始人组建的Recursive Superintelligence正式出山。
更早一些的迹象同样可见。Jack Clark在Import AI中提到,OpenAI内部目标是“到2026年9月构建一个自动化AI研究实习生”,DeepMind态度更谨慎但也表示“对齐研究自动化在可行时应推进”。从大厂内部目标到独立创业项目,RSI已经成为前沿实验室的共同战略方向。
这里有一个无法回避的悖论。
Anthropic的创立叙事建立在“AI安全优先”之上。而RSI恰恰是AI安全社区长期最担忧的能力之一。
华盛顿大学机器学习教授Pedro Domingos对Clark的60%概率判断回应称,“自1950年代LISP语言诞生以来,AI就有自我构建的能力。真正的问题是这一过程能否带来递增回报——目前没有证据支持这一点。”
批评者的核心质疑不在于RSI“是否可能”,而在于“是否能产生指数级的边际回报”,如果每一代AI自我优化的效率只是线性甚至递减改善,那么这条路线的影响力会被压缩在可控范围内。
AI安全研究者Eliezer Yudkowsky对Clark的60%判断给出的回应简短可怕:“那你将和我们其他人一起死去。”
Clark自己在文章中并未回避。他在Import AI中给出的一组测算是:如果当今的对齐技术准确率为99.9%,在50代迭代之后会降到约95%,500代之后会降到约60%——一种类似基因突变的复利漂移。在AI参与自身训练的循环中,对齐能否作为约束条件被可靠地传递给每一代后继模型,目前没有答案。
Anthropic的回答路径,似乎是“最懂风险的人最适合做这件事”——同步推进能力研究和对齐研究,用工程节奏跑赢失控时点。这个回答能否成立,需要Karpathy团队和Anthropic Institute后续公开的数据来验证。
Anthropic在研究纲要中作出了一项相对罕见的承诺:公开发布“我们的工作如何因新AI工具而加速”以及“AI系统潜在递归自我改进的相关数据”。它能不能被兑现,将是判断Anthropic在RSI路线上的押注,究竟是工程项目还是定位策略的关键标尺。
眼下,Karpathy加入Anthropic,也能更明显地看出AI产业的下一阶段竞争重心——从“用更多算力训练更大的模型”转向“让AI参与自己的训练过程”。
不过,这可能是一条潜力巨大,也很危险的路。

