..

新Andy&Bill法则

1990年代有一条著名的行业铁律,叫Andy and Bill’s Law1:What Andy gives, Bill takes away(Andy给的,Bill都拿走了)。

Andy是Intel的CEO Andy Grove,Bill是Microsoft的Bill Gates。意思是,Intel每做出一颗更快的芯片,Microsoft就会写出更臃肿的操作系统把性能增益吃得干干净净。硬件跑得再快,软件总能让它慢下来。这条定律精准描述了PC时代硬件与软件之间的军备竞赛——用户升级了CPU,打开Word的速度却一如既往。

三十多年后,这条定律在AI领域找到了新的宿主。只不过这次,Andy是模型厂商(OpenAI、Anthropic、Google),Bill有两个:框架用户

框架吃掉模型

2023年,大模型还处在「幼年期」——上下文窗口小、不会调工具、记不住上文——开发者们只好用LangChain、LlamaIndex这些编排框架给模型搭脚手架2。这在当时完全合理,就像给一个还不会走路的孩子装上学步车。

问题是,孩子已经长大了,学步车还焊在身上。

这就是「编排悖论」(The Orchestration Paradox)3旨在增强模型能力的框架,正在反向吞噬模型的原生能力。

这个悖论有个更讽刺的表述:我们一边宣传模型具备「博士级」推理能力,一边却要求人类在看到问题之前就预先分解任务、设计固定拓扑、用僵化的路由逻辑把工作分配给不同的Agent。真正的博士不是这么工作的——你不会对一个研究员说「先用你的文献综述人格工作两小时,再切换到实验设计人格」。他们会根据研究中发现的线索灵活调整策略。但编排框架恰恰在做这件事:把最难的部分——理解如何分解一个新问题——外包给了人类或僵化的编排器,同时声称Agent本身很聪明3

具体来说,这种「能力侵蚀」(Capability Eating)体现在两个层面。

第一层是性能税。 有人做过基准测试4,用LangChain编排层跑同样的金融任务,比直接调API慢25%,内存翻倍,每次调用多出50%的延迟。这不是代码写得丑不丑的问题——是每年几十万美元额外云账单的问题。

第二层是语义税。 框架会在你不知情的情况下往提示词里注入大量过时的系统指令。一个经典案例:有人用LangChain做食谱机器人,发现框架的ConversationBufferMemory完全无视了自定义的系统提示词,必须翻源码找到一个未公开的agent_kwargs参数才能修复5。更讽刺的是,框架强推的ReAct(Reason + Act)推理循环是给GPT-3.5时代设计的5——那时候模型确实需要外力帮它一步一步想。但GPT-4o和Claude 3.5以后的模型早已具备原生的工具调用和深度推理能力,框架强加的步骤化逻辑反而成了「逻辑瓶颈」,阻止模型进入真正的「慢思考」。

用Andy & Bill的话说:模型厂商给的推理能力,框架都拿走了。

反过来想:如果把框架做薄,模型升级的红利就能直接传导给应用。Pi Agent6的设计就是这种极简哲学的典范——整个系统只有四个元工具:Read、Write、Edit、Bash。没有链、没有图、没有Agent编排器。模型本身就是编排器。每次基座模型升级,Pi不用改一行代码就能变强。Anthropic提出的「以技能替代代理」(Skills over Agents)7也是同一个思路:与其造一个什么都管的胖框架,不如做一堆轻量的技能包,让模型自己决定怎么用。

公平地说,框架也在进化。今天的LangChain已经不是2023年那个强推ReAct模板的LangChain了,主流框架正在向薄封装、可组合的方向靠拢——这恰恰印证了趋势本身:行业正在学会把编排权还给模型。

但底层逻辑不变:框架越薄,模型进步的传导率越高。

用户吃掉模型

框架只是Bill的一个面孔。另一个Bill,是用户本身。

这一层更隐蔽,也更接近Andy & Bill’s Law的原始含义。回想一下:Intel做出了更快的芯片,用户感受到了吗?并没有——因为Windows变得更臃肿了,体感速度和上一代差不多。芯片的性能提升,被操作系统的膨胀完美对冲。

大模型也在经历完全一样的事情。模型从GPT-3.5进化到GPT-5.x/Claude Opus 4.6,推理能力跃升了几个量级。但普通用户的体感是什么?「好像聪明了一点,但也没那么夸张。」为什么?因为用户的期望和使用方式膨胀得比模型快——prompt越写越长、描述越来越随意、任务越塞越多、对输出质量的容忍度越来越低。模型给的能力冗余,被用户的扩张性使用方式「吃掉了」。

但这恰恰是一件好事。

想想iPhone。Apple的芯片团队年年刷跑分纪录,但绝大多数用户拿iPhone刷短视频、发微信——用到的算力不到芯片能力的十分之一。这不是浪费,这是性能冗余创造的用户体验。正是因为芯片能力远超日常需求,iPhone才能让所有用户——不管技术素养如何——都觉得「够用、流畅、不卡」。性能过剩不是bug,是feature。

而且大模型需要的冗余比芯片还大。芯片性能是确定性的——CPU快一倍,渲染就快一倍,没有意外。但模型智能是概率性的:用户输入越混乱、任务越开放,模型能力的边际收益就越陡峭地递减,甚至会产生新的错误类型——比如过度自信、隐蔽幻觉。这意味着模型不能只是「够快」,还必须在最差输入下也保持足够的正确率。如果一个模型在benchmark上刚好能完成某类任务,那在真实场景中它一定会频繁失败——因为用户的输入是混乱的、prompt是模糊的、上下文是残缺的。模型必须比「刚好够用」强很多,才能让普通用户觉得「够用」。 这和iPhone的逻辑一模一样:你需要A17 Pro的算力,才能让一个从来不关后台App的人觉得手机不卡。

我尝试过调整系统参数、设计精妙的提示词、控制有效上下文来让Qwen35在特定任务上表现得和Claude Opus 4.5一样出色,但这耗费了大量的时间和精力来处理各种边界情况。对普通用户来说,这完全不可行。模型必须在「不完美输入」的条件下也能表现出色,才能真正改善用户体验。也就是说,智能过剩才能刚刚够用。

换句话说:模型厂商给的智能冗余,用户的真实使用场景会全部吃掉。

这也解释了为什么模型的迭代速度必须远快于应用层的迭代。应用层(框架、产品、用户习惯)是天然的「能力黑洞」——它们会自动膨胀到把所有冗余吸收殆尽。模型只有持续跑在前面,用户体验才能真正改善。

所以Andy & Bill’s Law在AI时代有了双重含义:

  1. 框架层面: 框架吃掉模型能力。框架越厚,浪费越大。正确的做法是把框架做薄,充分利用模型厂商的原生能力;
  2. 用户层面: 用户吃掉模型冗余。这不是坏事,但意味着模型必须持续跑在用户需求的前面。性能过剩是产品体验的前提,不是奢侈品。

Andy Grove造出更快的芯片,Bill Gates写出更重的Windows。三十年后,模型厂商造出更强的大脑,框架和用户一起把它吃干抹净。历史不会重复,但确实押韵。


EOF 🤞