这是一篇由原始材料转换而来的阅读页,保留了源文件的主要结构,并补充了可追溯的来源说明与链接。
也就是: 给什么文档 如何组织知识 如何定义边界 如何给验证闭环 如何给清理与治理机制
OpenAI Harness Engineering — 读后感 / 总结 / 可迁移经验
一、我认为最重要的 5 个观点
1. Harness 不是 prompt 技巧,而是工程系统设计
文章最强的一点,是把“如何让 agent 产出稳定结果”从 prompt engineering 提升成了 harness engineering。
也就是: - 给什么文档 - 如何组织知识 - 如何定义边界 - 如何给验证闭环 - 如何给清理与治理机制
这些比“这一句 prompt 怎么写”更重要。
2. 仓库必须承担“组织记忆”功能
OpenAI 明确表达了一个很硬核的现实: 对 agent 而言,不在仓库中的知识基本上就是不存在。
这会迫使团队把: - 架构共识 - 设计决策 - runbook - 质量规则 - 技术债状态
不断搬进 repo。
3. AGENTS.md 应该短,而 docs/ 应该强
这一点非常值得实践。 很多人会忍不住把 AGENTS.md 写成大而全的说明书,但那样几乎一定会腐烂。
更好的模式: - AGENTS.md:目录、入口、规则、去哪找 - docs/:详细知识、系统记录、可维护的真相源
4. 机械化约束是 agent 时代的工程杠杆
如果一条规则真的重要,就别只写“请注意”。 把它写进: - linter - CI - structural test - script
才是真正能长期放大的地方。
5. 反馈回路比“更强模型”更重要
在很多场景里,决定 agent 是否高效的,不是模型再强一点,而是它能不能: - 启动系统 - 看见 UI - 读到日志 - 查指标与 traces - 在隔离环境里重复验证
二、和 Anthropic 文章相比,我的综合判断
Anthropic 的方案更像“跨 session 的换班协议”。 OpenAI 的方案更像“agent-first 仓库操作系统”。
Anthropic 更擅长解决:
- 怎么避免失忆
- 怎么避免做太多
- 怎么避免没验证就宣布完成
OpenAI 更擅长解决:
- 怎么让整个代码库长期由 agent 主导还不崩
- 怎么把人类判断转成自动化约束
- 怎么让仓库知识持续保持可消费、可验证、可清理
我认为现实落地里,最优路线是两者结合:
- 用 Anthropic 的 init.sh + feature_list.json + progress.md 解决接力问题
- 用 OpenAI 的 docs/ + plans/ + invariants + feedback loops + doc gardening 解决规模化问题
三、我提炼出的可迁移经验
经验 A:先做“地图”,再做“功能”
如果 agent 连仓库地图都没有,功能推进会越来越慢。
经验 B:每个复杂任务都应该有执行计划文件
复杂任务如果只存在于聊天上下文里,后面一定会丢。
经验 C:把“高频排障动作”脚本化
凡是经常重复的: - 启动 - 健康检查 - 复现 - 回归 - 收集日志
都应该变成脚本或 runbook。
经验 D:文档不治理,迟早变成毒药
过时文档对 agent 的伤害比“没有文档”还大,因为它会把系统带偏。
经验 E:后台治理任务会越来越重要
未来成熟仓库里,应该常驻几类后台 agent: - doc gardener - cleanup / refactor agent - invariant enforcer - bug triage / repro agent
四、我会怎么在真实项目里应用
对新项目
直接从第一天开始: - 短 AGENTS.md - 强 docs/ - plans/ - init.sh - feature_list.json - progress.md
对老项目
不要一次重构全部流程;先补: 1. docs/index.md 2. progress.md 3. init.sh 4. 一个执行计划模板 5. 一个最关键的结构约束检查
对多 agent 团队
建议分工: - Builder:实现功能 - Reviewer:审查 diff / 风险 - Gardener:维护 docs / 清理技术债 - Debugger:做 repro / logs / traces
但所有角色都必须共享同一套 harness 入口与工件。
五、最后的结论
如果说以前的软件工程强调的是: - 代码如何组织 - 人如何协作
那么 agent 时代的软件工程会越来越强调: - 环境如何设计 - 知识如何落库 - 反馈如何自动化 - 约束如何机械执行 - agent 如何在系统中持续安全地产生价值
我自己的结论很明确:
未来真正值钱的能力,不只是会用 agent,而是会给 agent 设计工作系统。
来源与参考
源文件: openai/notes.md
来源目录: /srv/project/harness-engineering