AI Agent 的最后一块拼图:Harness 工程实践

Prompt Engineering 解决了”怎么问”。Context Engineering 解决了”塞什么”。但 AI Agent 依然很难可靠地完成真实的多步骤任务。

因为还缺一块:Harness Engineering——执行问题

一辆车和发动机是两回事

把 AI Agent 想象成一辆车:

  • 模型是发动机。再强的发动机也只是动力来源。
  • Harness是发动机之外的一切——底盘、悬挂、传动、转向。没有 Harness,发动机再好,车也跑不起来,或者跑得极其不稳定。

Anthropic 给出了一个精炼的公式:Harness = Agent - Model

如果你觉得这个抽象,那就反过来想:当模型能力相同时,决定 Agent 表现差距的是什么?是 Harness。

很多团队抱怨”AI 不靠谱”,但换了个更好的模型后,发现问题依然在。问题往往不在发动机,在传动系统。

三层架构:Session、Harness、Sandbox

Anthropic 的实践将 AI 系统拆解为三个彻底分离的组件:

Session:可恢复的事件流

传统对话记录的是历史。Session 记录的是状态。

区别在于:你可以中断一个 Session,可以恢复,可以从任意节点继续。上下文不会因为对话结束而丢失。

这对多步骤任务至关重要。一个需要三天的分析任务,不应该每次打开对话框都从零开始。

Harness:可替换的推理调度循环

这是最核心的抽象。

Harness 负责:

  • 管理多步骤任务的执行顺序
  • 处理分支和循环
  • 维护任务状态
  • 调用外部工具
  • 处理异常和重试

关键是可替换。模型升级时,Harness 不需要大改;业务逻辑变化时,只需要换 Harness 而不用换模型。

Sandbox:执行环境与工具

这是 AI 真正”做事”的地方——代码执行、浏览器、API 调用、文件读写。

一个重要的原则:Sandbox 不应内化为 Agent 自身。工具是外部的,Agent 调用工具,而不是成为工具。

生成-评估三角架构:各大厂殊途同归

有意思的是,Anthropic、Google DeepMind、Manus 等各家的 Harness 设计,架构惊人地相似:

        ┌─────────────┐
        │   Planner   │
        │   规划器    │
        └──────┬──────┘
               │
        ┌──────▼──────┐
        │  Generator  │
        │   生成器    │
        └──────┬──────┘
               │
        ┌──────▼──────┐
        │  Evaluator  │
        │   评估器    │
        └─────────────┘
  • Planner 理解任务,拆解步骤
  • Generator 调用模型生成内容或执行动作
  • Evaluator 验证输出是否达标,决定是否重试

三角架构的核心价值是每一步都可观测、可干预、可替换。你可以在 Evaluator 和 Generator 之间插入人工审核节点,可以在 Planner 之前加一层意图分类。

六大手艺模块

一个成熟的 Harness 系统包含六大模块:

模块 职责 常见实现
上下文工程 管理对话历史,提炼关键信息 摘要压缩、重要性排序
记忆与状态 持久化进度,支持中断恢复 向量数据库、状态机
工具与编排 定义工具接口,编排调用顺序 Function Calling、工作流引擎
验证护栏 检查格式、安全边界、一致性 JSON Schema、沙箱
评估与观测 追踪完成率、延迟、错误率 埋点、A/B 测试
人类接管 关键节点允许人工介入 审批流、优先队列

Thin Harness, Fat Skills:一个反模式

见过很多这样的系统:花大量时间调试工具链、配置插件、优化 API 调用,但真正告诉 AI”怎么做好这件事”的内容——一个字都没写。

结果是工具链很漂亮,AI 产出质量和裸聊没本质区别。因为你优化了管道,但管道里流的还是自来水。

原则应该是:保持 Harness 薄,把智能推到 Skill 里。

当下一个更强的模型发布时,你所有的 Skill 都会自动变得更好。Skill 是永久资产。Harness 是基础设施。价值永远在知识层,不在工具层。

基础设施标准化的前夜

Anthropic 发布 Claude Managed Agents,将 Harness 的基础设施部分(会话管理、状态持久化、错误恢复)做成了托管服务。

这和云计算早期如出一辙:最初大家自建数据中心,后来 AWS 把基础设施接管了,开发者只关注应用逻辑。

Harness 的底层基础设施正在走向标准化。 未来的护城河不在基础设施,在应用层——对特定领域业务逻辑的深刻理解,在任务流设计能力。

这不是工具问题,是知识沉淀问题。

谁先想明白这一点,谁就能在 AI Agent 这波浪潮里建立真正的壁垒。