2026-03-24

新Andy&Bill法则

1990年代有一条著名的行业铁律，叫Andy and Bill’s Law¹：What Andy gives, Bill takes away（Andy给的，Bill都拿走了）。

Andy是Intel的CEO Andy Grove，Bill是Microsoft的Bill Gates。意思是，Intel每做出一颗更快的芯片，Microsoft就会写出更臃肿的操作系统把性能增益吃得干干净净。硬件跑得再快，软件总能让它慢下来。这条定律精准描述了PC时代硬件与软件之间的军备竞赛——用户升级了CPU，打开Word的速度却一如既往。

三十多年后，这条定律在AI领域找到了新的宿主。只不过这次，Andy是模型厂商（OpenAI、Anthropic、Google），Bill有两个：框架和用户。

框架吃掉模型

2023年，大模型还处在「幼年期」——上下文窗口小、不会调工具、记不住上文——开发者们只好用LangChain、LlamaIndex这些编排框架给模型搭脚手架²。这在当时完全合理，就像给一个还不会走路的孩子装上学步车。

问题是，孩子已经长大了，学步车还焊在身上。

这就是「编排悖论」（The Orchestration Paradox）³：旨在增强模型能力的框架，正在反向吞噬模型的原生能力。

这个悖论有个更讽刺的表述：我们一边宣传模型具备「博士级」推理能力，一边却要求人类在看到问题之前就预先分解任务、设计固定拓扑、用僵化的路由逻辑把工作分配给不同的Agent。真正的博士不是这么工作的——你不会对一个研究员说「先用你的文献综述人格工作两小时，再切换到实验设计人格」。他们会根据研究中发现的线索灵活调整策略。但编排框架恰恰在做这件事：把最难的部分——理解如何分解一个新问题——外包给了人类或僵化的编排器，同时声称Agent本身很聪明³。

具体来说，这种「能力侵蚀」（Capability Eating）体现在两个层面。

第一层是性能税。 有人做过基准测试⁴，用LangChain编排层跑同样的金融任务，比直接调API慢25%，内存翻倍，每次调用多出50%的延迟。这不是代码写得丑不丑的问题——是每年几十万美元额外云账单的问题。

第二层是语义税。 框架会在你不知情的情况下往提示词里注入大量过时的系统指令。一个经典案例：有人用LangChain做食谱机器人，发现框架的ConversationBufferMemory完全无视了自定义的系统提示词，必须翻源码找到一个未公开的agent_kwargs参数才能修复⁵。更讽刺的是，框架强推的ReAct（Reason + Act）推理循环是给GPT-3.5时代设计的⁵——那时候模型确实需要外力帮它一步一步想。但GPT-4o和Claude 3.5以后的模型早已具备原生的工具调用和深度推理能力，框架强加的步骤化逻辑反而成了「逻辑瓶颈」，阻止模型进入真正的「慢思考」。

用Andy & Bill的话说：模型厂商给的推理能力，框架都拿走了。

反过来想：如果把框架做薄，模型升级的红利就能直接传导给应用。Pi Agent⁶的设计就是这种极简哲学的典范——整个系统只有四个元工具：Read、Write、Edit、Bash。没有链、没有图、没有Agent编排器。模型本身就是编排器。每次基座模型升级，Pi不用改一行代码就能变强。Anthropic提出的「以技能替代代理」（Skills over Agents）⁷也是同一个思路：与其造一个什么都管的胖框架，不如做一堆轻量的技能包，让模型自己决定怎么用。

公平地说，框架也在进化。今天的LangChain已经不是2023年那个强推ReAct模板的LangChain了，主流框架正在向薄封装、可组合的方向靠拢——这恰恰印证了趋势本身：行业正在学会把编排权还给模型。

但底层逻辑不变：框架越薄，模型进步的传导率越高。

用户吃掉模型

框架只是Bill的一个面孔。另一个Bill，是用户本身。

这一层更隐蔽，也更接近Andy & Bill’s Law的原始含义。回想一下：Intel做出了更快的芯片，用户感受到了吗？并没有——因为Windows变得更臃肿了，体感速度和上一代差不多。芯片的性能提升，被操作系统的膨胀完美对冲。

大模型也在经历完全一样的事情。模型从GPT-3.5进化到GPT-5.x/Claude Opus 4.6，推理能力跃升了几个量级。但普通用户的体感是什么？「好像聪明了一点，但也没那么夸张。」为什么？因为用户的期望和使用方式膨胀得比模型快——prompt越写越长、描述越来越随意、任务越塞越多、对输出质量的容忍度越来越低。模型给的能力冗余，被用户的扩张性使用方式「吃掉了」。

但这恰恰是一件好事。

想想iPhone。Apple的芯片团队年年刷跑分纪录，但绝大多数用户拿iPhone刷短视频、发微信——用到的算力不到芯片能力的十分之一。这不是浪费，这是性能冗余创造的用户体验。正是因为芯片能力远超日常需求，iPhone才能让所有用户——不管技术素养如何——都觉得「够用、流畅、不卡」。性能过剩不是bug，是feature。

而且大模型需要的冗余比芯片还大。芯片性能是确定性的——CPU快一倍，渲染就快一倍，没有意外。但模型智能是概率性的：用户输入越混乱、任务越开放，模型能力的边际收益就越陡峭地递减，甚至会产生新的错误类型——比如过度自信、隐蔽幻觉。这意味着模型不能只是「够快」，还必须在最差输入下也保持足够的正确率。如果一个模型在benchmark上刚好能完成某类任务，那在真实场景中它一定会频繁失败——因为用户的输入是混乱的、prompt是模糊的、上下文是残缺的。模型必须比「刚好够用」强很多，才能让普通用户觉得「够用」。 这和iPhone的逻辑一模一样：你需要A17 Pro的算力，才能让一个从来不关后台App的人觉得手机不卡。

我尝试过调整系统参数、设计精妙的提示词、控制有效上下文来让Qwen35在特定任务上表现得和Claude Opus 4.5一样出色，但这耗费了大量的时间和精力来处理各种边界情况。对普通用户来说，这完全不可行。模型必须在「不完美输入」的条件下也能表现出色，才能真正改善用户体验。也就是说，智能过剩才能刚刚够用。

换句话说：模型厂商给的智能冗余，用户的真实使用场景会全部吃掉。

这也解释了为什么模型的迭代速度必须远快于应用层的迭代。应用层（框架、产品、用户习惯）是天然的「能力黑洞」——它们会自动膨胀到把所有冗余吸收殆尽。模型只有持续跑在前面，用户体验才能真正改善。

所以Andy & Bill’s Law在AI时代有了双重含义：

框架层面： 框架吃掉模型能力。框架越厚，浪费越大。正确的做法是把框架做薄，充分利用模型厂商的原生能力；
用户层面： 用户吃掉模型冗余。这不是坏事，但意味着模型必须持续跑在用户需求的前面。性能过剩是产品体验的前提，不是奢侈品。

Andy Grove造出更快的芯片，Bill Gates写出更重的Windows。三十年后，模型厂商造出更强的大脑，框架和用户一起把它吃干抹净。历史不会重复，但确实押韵。

Andy and Bill’s law - Wikipedia ↩
Whats so bad about LlamaIndex, Haystack, Langchain? ↩
Smart Agents Don’t Need Managers ↩ ↩²
LangChain vs OpenAI API: When Simplicity Meets Scalability ↩
The Problem With LangChain - Pelayo Arbués 以及The Problem With LangChain - Hacker News ↩ ↩²
Claude Code Computer Use vs OpenClaw: Which Agent Control System Is Better? 以及 Pi: The Minimal Agent Within OpenClaw 强烈建议阅读下Pi Mono的源码，设计非常简洁。 ↩
Anthropic Says Don’t Build Agents, Build Skills Instead! ↩