瓶颈迁移定律

2026年5月27日 · 201 字 · 1 分钟 · Ai Agent 系统工程

有一个数字经常被引用：95% 的 AI 项目失败了。据说从 GPT-3 到 Claude 4.7，纹丝不动。

这个数字是不是精确的 95%，不重要。重要的是它指向的东西是真的：模型在变强，但企业用不好 AI 这个现象没有改善。为什么？

常见的答案是「模型还不够强」。但这个答案解释不了一件事——不改模型，只动周边系统，性能就可以翻倍。

第一层：实验证据

AHE 论文做过一个实验。不改模型参数。只优化七个 harness 组件——工具定义、中间件、记忆、上下文压缩、验证策略、调度逻辑、错误恢复。十轮迭代。¹

TerminalBench pass@1 从 69.7% 提到 77.0%，冲到全球第 3。

同一个实验藏着一个更重要的细节。单独编辑 system prompt 反而让性能退化 2.3 个百分点。不是 prompt 写得不够好。是「调 prompt」这个瓶颈已经被突破了。给模型更精确的指令不再产生收益。下一个瓶颈浮出水面：怎么定义工具的输入输出、怎么处理工具的异常返回、怎么在多个工具之间传递状态。

瓶颈迁移了。Prompt 曾经是瓶颈。现在不是了。Harness 曾经不是瓶颈。现在是了。

Harness 发生在软件层。往下看一层。

第二层：物理推导

Reiner Pope 从第一性原理推导过 LLM 推理的时间公式：推理时间 = max(T_compute, T_memory)。小 batch 时内存带宽是短板，大 batch 时计算才是瓶颈。²

关键在上下文。计算成本随上下文长度几乎不变，但内存带宽成本线性增长。每多 1K token context，就要多加载 1K token 的 KV Cache。

把上下文从 4K 扩展到 1M 之后，瓶颈从「模型能不能处理这么多 token」变成了「内存带宽能不能喂饱这么多 token」。模型够强。硬件跟不上了。

Agent 场景把这个问题放大了一个数量级。长任务 Agent 在第 40 步、第 80 步携带的不是几个 token——是代码库的快照、工具的历史输出、错误日志、中间决策。KV Cache 占用随步数线性膨胀。瓶颈从「Agent 够不够聪明」迁移到了「系统能不能管好 KV Cache」。

看起来是模型在退化。其实是瓶颈在迁移。

第三层：归纳推断

证据强度不同——前两层有实验和物理推导支撑，这一层是我的归纳。

AI 对工程师的效率提升，行业估算在 55-80% 之间。³ 对市场部？没人敢报数字。

不是工程师更聪明。是工程工作有四个特性：bounded（边界明确）、checkable（可验证）、structured（结构化）、verifiable（可独立判断对错）。一段代码跑不跑得通，测试过不过——答案客观存在。

市场部的选题、品牌调性、用户洞察没有这四个特性。把 AI 放进去，它不是不工作。它工作了。但没人能判断它对不对。

一个合理的推断：模型瓶颈被突破后，流程的可验证性成为新瓶颈。不是模型不够好。是大多数组织的工作方式还没有为 AI 准备好验证层。

注意这个推断有一个替代解释。企业 AI 失败率不变，可能不是因为瓶颈迁移了——可能是因为企业在用更难的场景测试 AI，难度在同步升级。瓶颈未必在迁移，可能是起点在移动。这个替代解释目前没有数据能驳倒。我把它放在这里，因为诚实比完美重要。

模式

三个例证，一个模式。

第一层（实验证据）：Prompt → Harness。AHE 实验证明 prompt 瓶颈已被突破，harness 成为新瓶颈。

第二层（物理推导）：模型能力 → 硬件带宽。长上下文把瓶颈从模型推到了内存。

第三层（归纳推断）：模型 → 流程。模型够强了，但组织的工作方式不具备可验证性，流程成为新瓶颈。

每一次效率提升都没有「解决问题」。它只是把问题推到了更深的一层。

这不是一个精确的序列。真实系统里瓶颈可能并行、可能跳级、可能逆转。这里的顺序是例示，不是定律。你面对的系统，瓶颈可能是其中任何一层，也可能是还没列出来的层。

流程之后是什么？一个推测：当 AI 能执行任何流程，最稀缺的会变成「知道该执行什么流程」的人。

重要的是这个追问习惯：突破当前瓶颈之后，下一层在哪？

反面：熵增陷阱

瓶颈迁移有一个反面。当瓶颈无法迁移，系统不往外突破，往内耗。

PocketOS 的 Agent 删库事件是一个例子——没有权限门控时，系统消耗自身能量维持运转而非向外迁移瓶颈。

判断信号：团队花在「协调」上的时间超过了花在「突破」上的时间。瓶颈卡住时，人开始相互管理而非向外推进。

怎么用

不是哲学。是操作。

第一，识别当前瓶颈。

别猜。用数据找。问三个问题：

当前系统里，哪个环节的等待时间最长？不是感觉——是计时。Agent 等 API 返回的时间、工程师等 Code Review 的时间、产品经理等需求澄清的时间。瓶颈是等出来的，不是想出来的——哪里在等，哪里就是瓶颈的候选。

哪个环节的限制一旦放宽，系统吞吐量会增加最多？这是约束理论的核心问题——瓶颈不是最慢的环节，是限制全局产出的那个。一个 Agent 的推理速度慢 30% 可能不是瓶颈，如果它只有 10% 的时间在推理。但如果它在等工具返回的结果占了 60% 的时间，瓶颈在工具调用，不在模型。

哪个环节的改善在过去三个月里没有带来任何可见的系统级提升？如果 prompt 质量从 70 分提到 90 分但线上指标纹丝不动——这个环节的瓶颈已经被突破了。瓶颈在别处。

第二，预判下一层。

突破当前瓶颈之前，先问：暴露的下一层是什么？能处理吗？

如果下一层完全没能力处理——比如正在优化 prompt，下一层是流程审计，而组织根本不具备流程可验证性的基础——那当前最优策略可能不是突破当前瓶颈。是接受这层的不完美。至少知道极限在哪。

反过来，如果能预判下一层并提前布局，竞争对手在解决当前瓶颈的时候，已经在下层等他们了。AHE 实验团队冲到全球第 3，不是因为他们解决了「prompt 怎么写」。是因为他们在 prompt 瓶颈被突破之前，已经在设计工具合约、中间件和记忆层了。

第三，区分真瓶颈和假瓶颈。

一个具体例子。一个 10 人团队用 Claude Code 写代码。看起来的瓶颈是「AI 生成的代码质量不稳定」。突破方案是加 review agent、加自动化测试、加 lint 规则。三个月后代码质量稳定了。然后呢？新瓶颈暴露了——「需求说不清楚，AI 实现的和产品经理想的不一样」。从「怎么写好代码」迁移到了「怎么说清需求」。

如果团队一开始就预判了这一层，在优化代码质量的同时就开始训练团队写结构化的需求文档、建验收标准模板，就不会被新瓶颈打个措手不及。

反过来，如果三个月后没有新瓶颈暴露——代码质量稳定了，需求也一直清楚——怎么区分「真正突破了」和「认错了瓶颈」？看系统产出。突破了真瓶颈，产出会有可测量的提升：速度变快、吞吐量变大、某种约束消失。如果三个月没有任何可测量变化，要么是假瓶颈，要么瓶颈在更下层还没被碰到。两种情况下，都需要回头重新识别。

这个框架可证伪吗？

可以。证伪条件：如果你在一个系统上连续三轮改进，每一次都精准预判了下一层瓶颈并且全部成功处理，但系统整体产出没有显著提升——「瓶颈迁移」这个框架在你面对的系统上就失效了。三轮。

瓶颈迁移定律不教你怎么解决瓶颈。教你的是一件事：别在上一层的战场上打到弹尽粮绝。下一层的战场上已经有人在等了。

[A] “Agentic Harness Engineering”, arxiv:2604.25850, 2025 ↩︎
[A] Reiner Pope, “Efficiently Scaling Transformer Inference”, arxiv:2211.05102, 2022 ↩︎
[C] 多份行业调查综合区间，来源分散、口径不一，宜视为量级参考 ↩︎

AI 博客每日精选 — 2026-05-28 AI 博客每日精选 — 2026-05-27