AI能改10万行代码,却让你走路去洗车!Karpathy戳破「锯齿状智能」

浏览22次 点赞0次 收藏0次

【导读】能重构10万行代码的顶尖模型,却会建议你走路去洗车店洗车?最近,Karpathy把这件怪事讲透了:AI能力是锯齿状的,背后是一门经济学。他还提到Vibe Coding抬高了编程的地板,但专业开发者还需要智能体工程。智能体时代,你可以外包思考,却不能外包理解。

今天最先进的大模型,可以一口气重构一个10万行的代码库,也会在你想要洗车的时候,建议你走路去50米外的洗车店。

为什么同一个模型,一会儿它表现得像一位超级工程师,一会儿却又像一个刚毕业的实习生?

这是Karpathy近日在Sequoia AI Ascent 2026炉边谈话中抛出的一个画面,他用锯齿状智能(jaggedness)来概括这种能力分布。


2026年4月29日,Karpathy在Sequoia AI Ascent 2026炉边谈话现场

谈话结束后,他在X上发帖复盘整场对话的亮点。


他想讲的第一件事是,大模型根本不只是在加速已有的东西,它还在打开几条全新的地平线:有些事第一次变得可能,有些事开始显得不必要。

第二件事,就是锯齿状智能。为什么模型一边能干超人的活,一边在常识题上翻车?Karpathy把锯齿状能力解释为可验证性与经济激励共同影响的结果。

第三件事,一个面向原生智能体(agent-native)的新经济正在长出来。所有今天为人类写的软件、文档、流程,都要被重写为「为agent写」。

这三件事共同指向同一个判断:AI已经不是「写代码更快」那么简单。它在重写软件本身,也在重写人类在系统里的位置。

Karpathy自己就是最鲜明的例子。

这位OpenAI创始成员、前Tesla AI负责人、Vibe Coding词语的发明者,前不久还公开撂下一句话:「我从未感觉作为程序员这么落后过。」

Sequoia的主持人正是把这句话拎出来,作为炉边谈的开场白。

这并不是谦虚。

一年前发明「氛围编程」(vibe coding)的人,亲口承认自己跟不上AI时代的浪潮,只能说明一点:AI发展的速度实在太快了。

能改10万行代码

却让你走路去洗车

「太离谱了。」

Karpathy在Sequoia现场讲了这个洗车的段子:最先进的模型,可以重构10万行代码库,也会建议你走路去50米外的洗车店洗车。

10万行代码已经足以构成一个相当复杂的软件项目,而「走路去洗车店」呢?这是一个三岁孩子都能搞清楚的常识题。

你想洗的是车,车不能走路,所以人走路去洗车店是一个毫无意义的建议。一个能改10万行代码的模型,就在这种小学生级别的常识题上崩了。

Karpathy用这个例子来说明大模型的锯齿状智能,他认为AI的能力并非均匀进步的,而是参差不齐,就像一块凹凸不平的锯齿板。

因此今天理解AI最危险的事,就是用「它行/它不行」二分法去判断。

新地平线

当软件可以「直接做到」

Karpathy在炉边谈里讲了一个让他自己有点尴尬的故事。

他写过一个App,叫MenuGen。在餐厅拍下看不懂的菜单,App帮你把每道菜画出来。OCR加图像生成,这是一个标准的软件1.0项目。

然后有一天他看到了一个软件3.0的版本。

那个版本只有一句话:把菜单照片发给Gemini,然后说「用Nanobanana把菜品贴到菜单上」。

Gemini直接吐出一张图。还是那张菜单,但每一道菜旁边都贴上了图。


那一刻,Karpathy感觉到自己写的MenuGen是多余的,因为它还活在旧范式里。

这是Karpathy想说的第一个新地平线,不只是把旧软件做得更快,而是把许多原本要靠一整个工程才能完成的事,压缩成模型的一次输出。

第二个地平线,是.md而不是.sh。

过去你装一个软件,用bash脚本,写得密密麻麻,环境一变就崩。Karpathy提到OpenClaw的安装方式:不是脚本,是一段Markdown文字,写着「把这段复制粘贴给你的agent」。

Agent查看你的环境、debug并完成调试。Markdown不再是给人看的说明书,而是给agent看的指令。

第三个地平线,是LLM Wiki。

这是Karpathy 2026年4月在GitHub Gist上发布的一个新理念。普通RAG(检索增强生成)是你每问一次,模型就从零开始重新拆解一次文档,知识不累积。

LLM Wiki不一样,它让模型在一个Markdown文件夹里持续维护知识库,你用Obsidian浏览:新文档进来,模型自动更新已有条目、修订摘要、补足链接、标记矛盾。

在那份Gist里,Karpathy用了一个比喻:Obsidian是IDE(集成开发环境),LLM是程序员,wiki是代码库。

在LLM Wiki里,知识被进一步组织成一个像代码库一样可积累、可维护、可版本控制的工程产物。

三个例子,指向同一件事:软件1.0你写代码,软件2.0你训权重,软件3.0你写提示词(prompt)、控上下文窗口(context window)、调智能体。

锯齿状的背后

可验证性和经济学

讲了新范式,Karpathy详细解释了那个让全场最困惑的问题:为什么模型智能有时会表现得这么「锯齿」?

他认为这主要不是一个技术问题,而是一个经济学问题。

是收入和市场规模(revenue/TAM),决定了前沿实验室在强化学习阶段把什么打包进训练数据分布。


Karpathy在解释锯齿状能力时,特别强调了强化学习( RL )环境的作用。

强化学习要奖励信号(reward),奖励信号要可验证。一个领域只要可以被验证(代码能不能跑、数学题答案对不对、漏洞能不能复现),就可以构建强化学习环境,模型就在这个领域飞速进化。

但「可验证」还不够,还要有钱赚。

OpenAI、Anthropic、Google选什么进训练分布,背后是收入和市场规模的考量。

市场大、付费意愿强、能形成商业闭环的领域,会被打包进RL;反之就没人投入。

Karpathy给了一个画面感很强的比喻:在RL的轨道上,你在飞;离开数据分布,你拿着砍刀进丛林。

所以今天看到的所谓锯齿状,不是缺陷,是结构。是「可验证 + 有钱赚」这两条线把模型能力雕成的形状。

这件事对创业者特别重要。

Karpathy在炉边谈里直接给了建议:如果你想做AI创业,找一个可验证、但前沿实验室还没顾上的领域,自己去构建RL环境,自己去微调(fine-tune)模型。这是当下最有可能跑出护城河的方向。

换句话说,下一波AI-native公司,可能会是验证环境本身。谁能定义可验证任务、构建奖励循环(reward loop)、积累边缘案例(edge cases),谁就握有底牌。

Karpathy在炉边谈话中,将神秘的AI锯齿状智能,还原成一个可以被分析的工程经济问题。

Vibe Coding的发明人

又造出新词

2025年2月,Karpathy在X上发明了一个词:Vibe Coding,以此形容一种高度依赖AI、几乎不亲手写代码的开发方式。

这个词后来火到被Collins字典选为2025年度词汇。Cursor、Lovable、Replit这一批公司估值飙到几十亿美金,背后都是这股风。

一年后,在这次对话中,Karpathy给这个词又升了级,叫智能体工程(Agentic Engineering)。

他对这两个词的看法是:Vibe Coding是「把地板抬高」(raising the floor),让所有人都能写软件。

智能体工程是「把天花板保住」(preserving the ceiling),让专业软件不因为AI而掉到不该掉的水准。


因为今天AI写出来的代码,在Karpathy眼中显得很臃肿(bloaty),一堆复制粘贴,抽象很怪很脆弱,能跑,但真的很糟。

他还讲了一个真实案例。

他的智能体在MenuGen里,居然试图用Stripe和Google返回的email地址去做用户匹配,而不是用一个持久化的用户ID(user ID)。

这是任何一个有经验的工程师都不会犯的错,但智能体却犯了。

因此,Karpathy给了智能体一个非常准确的定位:智能体就是一群实习生(intern entities)。

实习生有用,但你不能让他们独自上线生产代码。你得管需求定义、管系统架构、管安全、管审美、管验证。这些事,智能体干不了。

Vibe Coding的爽感区,属于业余项目和原型,而智能体工程才是专业开发的下一站。前者降低门槛,后者抬高要求,两件事不能混为一谈。

这也是今天行业最容易踩的坑。

Vibe Coding浪潮下,所有人都在喊AI让人人都是程序员,但Karpathy却说:能在智能体时代活下来的工程师,不是写得快的,是管得住智能体的。

你能外包思考

但不能外包理解

炉边谈话中,主持人还问了一个所有人都在焦虑的问题:当智能体能写代码、能调度、能自己装软件,人类还剩什么?

Karpathy引用了一条让他打开脑洞的推文:

你可以外包你的思考,但你不能外包你的理解。

他对此的理解是:我仍然是瓶颈,因为只有我才知道我们到底要建什么、为什么要建。

Karpathy将人类在智能体流程里的角色定位为工程管理/工程导演职能。

第一是需求定义(spec),写清楚要做什么;

第二是拆解计划(plan),拆清楚怎么做;

第三是系统架构(architecture),决定系统长什么样;

第四是品味判断(taste),判断哪个方案是好的;

第五是过程监督(oversight),盯着智能体别跑偏;

第六是结果验证(verification),验证智能体的产出是否真的正确。

这六件事,智能体可以辅助,但不能独立承担最终责任。

Karpathy重提了他此前提到的「动物与幽灵」(animals versus ghosts)比喻。


2025年10月,Karpathy曾系统阐述过这个比喻:幽灵之于动物,正如飞机之于鸟类。

他认为今天的前沿大模型研究不是在造动物,而是在「召唤幽灵」。

动物有内在动机,幽灵没有,它只是被数据和奖励塑形出来的智能模拟,是一个全新的物种:你不能像对待人一样对待智能体,也不能像对待传统软件一样对待智能体。

而人类的位置,是导演。

导演虽然不亲自演戏,但导演要懂戏。你不亲手写每一行代码,但你要知道这个产品该长什么样、为什么这样比那样好、上线之后会出什么事。

Sequoia在2026年给出的判断是:AI应用的渗透速度还在加快,「0到1亿美金」的俱乐部,正在升级成「0到10亿美金」。

最好的AI创业公司,每个员工的年产出已经过百万美金。这背后是智能体在干活,但能让智能体真正干出百万产出的,是那些懂得当导演的创始人。

Karpathy在炉边谈话尾声,描述了他的更远愿景:未来某一天,神经网络会变成主进程,CPU反过来沦为协处理器。

但就算这条路真的走通,导演的位置也不会消失。因为幽灵永远不会替你想清楚,你到底要什么。那些不能外包的部分,就是你的位置。

参考资料:

https://x.com/karpathy/status/2049903821095354523

https://www.youtube.com/watch?v=96jN2OCOfLs

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯