AI Agent 的最后一块拼图:Harness 工程实践
Prompt Engineering 解决了”怎么问”。Context Engineering 解决了”塞什么”。但 AI Agent 依然很难可靠地完成真实的多步骤任务。
因为还缺一块:Harness Engineering——执行问题。
一辆车和发动机是两回事
把 AI Agent 想象成一辆车:
- 模型是发动机。再强的发动机也只是动力来源。
- Harness是发动机之外的一切——底盘、悬挂、传动、转向。没有 Harness,发动机再好,车也跑不起来,或者跑得极其不稳定。
Anthropic 给出了一个精炼的公式:Harness = Agent - Model。
如果你觉得这个抽象,那就反过来想:当模型能力相同时,决定 Agent 表现差距的是什么?是 Harness。
很多团队抱怨”AI 不靠谱”,但换了个更好的模型后,发现问题依然在。问题往往不在发动机,在传动系统。
三层架构:Session、Harness、Sandbox
Anthropic 的实践将 AI 系统拆解为三个彻底分离的组件:
Session:可恢复的事件流
传统对话记录的是历史。Session 记录的是状态。
区别在于:你可以中断一个 Session,可以恢复,可以从任意节点继续。上下文不会因为对话结束而丢失。
这对多步骤任务至关重要。一个需要三天的分析任务,不应该每次打开对话框都从零开始。
Harness:可替换的推理调度循环
这是最核心的抽象。
Harness 负责:
- 管理多步骤任务的执行顺序
- 处理分支和循环
- 维护任务状态
- 调用外部工具
- 处理异常和重试
关键是可替换。模型升级时,Harness 不需要大改;业务逻辑变化时,只需要换 Harness 而不用换模型。
Sandbox:执行环境与工具
这是 AI 真正”做事”的地方——代码执行、浏览器、API 调用、文件读写。
一个重要的原则:Sandbox 不应内化为 Agent 自身。工具是外部的,Agent 调用工具,而不是成为工具。
生成-评估三角架构:各大厂殊途同归
有意思的是,Anthropic、Google DeepMind、Manus 等各家的 Harness 设计,架构惊人地相似:
┌─────────────┐
│ Planner │
│ 规划器 │
└──────┬──────┘
│
┌──────▼──────┐
│ Generator │
│ 生成器 │
└──────┬──────┘
│
┌──────▼──────┐
│ Evaluator │
│ 评估器 │
└─────────────┘
- Planner 理解任务,拆解步骤
- Generator 调用模型生成内容或执行动作
- Evaluator 验证输出是否达标,决定是否重试
三角架构的核心价值是每一步都可观测、可干预、可替换。你可以在 Evaluator 和 Generator 之间插入人工审核节点,可以在 Planner 之前加一层意图分类。
六大手艺模块
一个成熟的 Harness 系统包含六大模块:
| 模块 | 职责 | 常见实现 |
|---|---|---|
| 上下文工程 | 管理对话历史,提炼关键信息 | 摘要压缩、重要性排序 |
| 记忆与状态 | 持久化进度,支持中断恢复 | 向量数据库、状态机 |
| 工具与编排 | 定义工具接口,编排调用顺序 | Function Calling、工作流引擎 |
| 验证护栏 | 检查格式、安全边界、一致性 | JSON Schema、沙箱 |
| 评估与观测 | 追踪完成率、延迟、错误率 | 埋点、A/B 测试 |
| 人类接管 | 关键节点允许人工介入 | 审批流、优先队列 |
Thin Harness, Fat Skills:一个反模式
见过很多这样的系统:花大量时间调试工具链、配置插件、优化 API 调用,但真正告诉 AI”怎么做好这件事”的内容——一个字都没写。
结果是工具链很漂亮,AI 产出质量和裸聊没本质区别。因为你优化了管道,但管道里流的还是自来水。
原则应该是:保持 Harness 薄,把智能推到 Skill 里。
当下一个更强的模型发布时,你所有的 Skill 都会自动变得更好。Skill 是永久资产。Harness 是基础设施。价值永远在知识层,不在工具层。
基础设施标准化的前夜
Anthropic 发布 Claude Managed Agents,将 Harness 的基础设施部分(会话管理、状态持久化、错误恢复)做成了托管服务。
这和云计算早期如出一辙:最初大家自建数据中心,后来 AWS 把基础设施接管了,开发者只关注应用逻辑。
Harness 的底层基础设施正在走向标准化。 未来的护城河不在基础设施,在应用层——对特定领域业务逻辑的深刻理解,在任务流设计能力。
这不是工具问题,是知识沉淀问题。
谁先想明白这一点,谁就能在 AI Agent 这波浪潮里建立真正的壁垒。