AI Agent 的最后一块拼图：Harness 工程实践

Prompt Engineering 解决了”怎么问”。Context Engineering 解决了”塞什么”。但 AI Agent 依然很难可靠地完成真实的多步骤任务。

因为还缺一块：Harness Engineering——执行问题。

一辆车和发动机是两回事

把 AI Agent 想象成一辆车：

模型是发动机。再强的发动机也只是动力来源。
Harness是发动机之外的一切——底盘、悬挂、传动、转向。没有 Harness，发动机再好，车也跑不起来，或者跑得极其不稳定。

Anthropic 给出了一个精炼的公式：Harness = Agent - Model。

如果你觉得这个抽象，那就反过来想：当模型能力相同时，决定 Agent 表现差距的是什么？是 Harness。

很多团队抱怨”AI 不靠谱”，但换了个更好的模型后，发现问题依然在。问题往往不在发动机，在传动系统。

三层架构：Session、Harness、Sandbox

Anthropic 的实践将 AI 系统拆解为三个彻底分离的组件：

Session：可恢复的事件流

传统对话记录的是历史。Session 记录的是状态。

区别在于：你可以中断一个 Session，可以恢复，可以从任意节点继续。上下文不会因为对话结束而丢失。

这对多步骤任务至关重要。一个需要三天的分析任务，不应该每次打开对话框都从零开始。

Harness：可替换的推理调度循环

这是最核心的抽象。

Harness 负责：

管理多步骤任务的执行顺序
处理分支和循环
维护任务状态
调用外部工具
处理异常和重试

关键是可替换。模型升级时，Harness 不需要大改；业务逻辑变化时，只需要换 Harness 而不用换模型。

Sandbox：执行环境与工具

这是 AI 真正”做事”的地方——代码执行、浏览器、API 调用、文件读写。

一个重要的原则：Sandbox 不应内化为 Agent 自身。工具是外部的，Agent 调用工具，而不是成为工具。

生成-评估三角架构：各大厂殊途同归

有意思的是，Anthropic、Google DeepMind、Manus 等各家的 Harness 设计，架构惊人地相似：

        ┌─────────────┐
        │   Planner   │
        │   规划器    │
        └──────┬──────┘
               │
        ┌──────▼──────┐
        │  Generator  │
        │   生成器    │
        └──────┬──────┘
               │
        ┌──────▼──────┐
        │  Evaluator  │
        │   评估器    │
        └─────────────┘

Planner 理解任务，拆解步骤
Generator 调用模型生成内容或执行动作
Evaluator 验证输出是否达标，决定是否重试

三角架构的核心价值是每一步都可观测、可干预、可替换。你可以在 Evaluator 和 Generator 之间插入人工审核节点，可以在 Planner 之前加一层意图分类。

六大手艺模块

一个成熟的 Harness 系统包含六大模块：

模块	职责	常见实现
上下文工程	管理对话历史，提炼关键信息	摘要压缩、重要性排序
记忆与状态	持久化进度，支持中断恢复	向量数据库、状态机
工具与编排	定义工具接口，编排调用顺序	Function Calling、工作流引擎
验证护栏	检查格式、安全边界、一致性	JSON Schema、沙箱
评估与观测	追踪完成率、延迟、错误率	埋点、A/B 测试
人类接管	关键节点允许人工介入	审批流、优先队列

Thin Harness, Fat Skills：一个反模式

见过很多这样的系统：花大量时间调试工具链、配置插件、优化 API 调用，但真正告诉 AI”怎么做好这件事”的内容——一个字都没写。

结果是工具链很漂亮，AI 产出质量和裸聊没本质区别。因为你优化了管道，但管道里流的还是自来水。

原则应该是：保持 Harness 薄，把智能推到 Skill 里。

当下一个更强的模型发布时，你所有的 Skill 都会自动变得更好。Skill 是永久资产。Harness 是基础设施。价值永远在知识层，不在工具层。

基础设施标准化的前夜

Anthropic 发布 Claude Managed Agents，将 Harness 的基础设施部分（会话管理、状态持久化、错误恢复）做成了托管服务。

这和云计算早期如出一辙：最初大家自建数据中心，后来 AWS 把基础设施接管了，开发者只关注应用逻辑。

Harness 的底层基础设施正在走向标准化。 未来的护城河不在基础设施，在应用层——对特定领域业务逻辑的深刻理解，在任务流设计能力。

这不是工具问题，是知识沉淀问题。

谁先想明白这一点，谁就能在 AI Agent 这波浪潮里建立真正的壁垒。