这是一篇由原始材料转换而来的阅读页，保留了源文件的主要结构，并补充了可追溯的来源说明与链接。

摘要

也就是：给什么文档如何组织知识如何定义边界如何给验证闭环如何给清理与治理机制

openaimarkdownarticle

OpenAI Harness Engineering — 读后感 / 总结 / 可迁移经验

一、我认为最重要的 5 个观点

1. Harness 不是 prompt 技巧，而是工程系统设计

文章最强的一点，是把“如何让 agent 产出稳定结果”从 prompt engineering 提升成了 harness engineering。

也就是： - 给什么文档 - 如何组织知识 - 如何定义边界 - 如何给验证闭环 - 如何给清理与治理机制

这些比“这一句 prompt 怎么写”更重要。

2. 仓库必须承担“组织记忆”功能

OpenAI 明确表达了一个很硬核的现实：对 agent 而言，不在仓库中的知识基本上就是不存在。

这会迫使团队把： - 架构共识 - 设计决策 - runbook - 质量规则 - 技术债状态

不断搬进 repo。

3. AGENTS.md 应该短，而 docs/ 应该强

这一点非常值得实践。很多人会忍不住把 AGENTS.md 写成大而全的说明书，但那样几乎一定会腐烂。

更好的模式： - AGENTS.md：目录、入口、规则、去哪找 - docs/：详细知识、系统记录、可维护的真相源

4. 机械化约束是 agent 时代的工程杠杆

如果一条规则真的重要，就别只写“请注意”。把它写进： - linter - CI - structural test - script

才是真正能长期放大的地方。

5. 反馈回路比“更强模型”更重要

在很多场景里，决定 agent 是否高效的，不是模型再强一点，而是它能不能： - 启动系统 - 看见 UI - 读到日志 - 查指标与 traces - 在隔离环境里重复验证

二、和 Anthropic 文章相比，我的综合判断

Anthropic 的方案更像“跨 session 的换班协议”。 OpenAI 的方案更像“agent-first 仓库操作系统”。

Anthropic 更擅长解决：

怎么避免失忆
怎么避免做太多
怎么避免没验证就宣布完成

OpenAI 更擅长解决：

怎么让整个代码库长期由 agent 主导还不崩
怎么把人类判断转成自动化约束
怎么让仓库知识持续保持可消费、可验证、可清理

我认为现实落地里，最优路线是两者结合： - 用 Anthropic 的 init.sh + feature_list.json + progress.md 解决接力问题 - 用 OpenAI 的 docs/ + plans/ + invariants + feedback loops + doc gardening 解决规模化问题

三、我提炼出的可迁移经验

经验 A：先做“地图”，再做“功能”

如果 agent 连仓库地图都没有，功能推进会越来越慢。

经验 B：每个复杂任务都应该有执行计划文件

复杂任务如果只存在于聊天上下文里，后面一定会丢。

经验 C：把“高频排障动作”脚本化

凡是经常重复的： - 启动 - 健康检查 - 复现 - 回归 - 收集日志

都应该变成脚本或 runbook。

经验 D：文档不治理，迟早变成毒药

过时文档对 agent 的伤害比“没有文档”还大，因为它会把系统带偏。

经验 E：后台治理任务会越来越重要

未来成熟仓库里，应该常驻几类后台 agent： - doc gardener - cleanup / refactor agent - invariant enforcer - bug triage / repro agent

四、我会怎么在真实项目里应用

对新项目

直接从第一天开始： - 短 AGENTS.md - 强 docs/ - plans/ - init.sh - feature_list.json - progress.md

对老项目

不要一次重构全部流程；先补： 1. docs/index.md 2. progress.md 3. init.sh 4. 一个执行计划模板 5. 一个最关键的结构约束检查

对多 agent 团队

建议分工： - Builder：实现功能 - Reviewer：审查 diff / 风险 - Gardener：维护 docs / 清理技术债 - Debugger：做 repro / logs / traces

但所有角色都必须共享同一套 harness 入口与工件。

五、最后的结论

如果说以前的软件工程强调的是： - 代码如何组织 - 人如何协作

那么 agent 时代的软件工程会越来越强调： - 环境如何设计 - 知识如何落库 - 反馈如何自动化 - 约束如何机械执行 - agent 如何在系统中持续安全地产生价值

我自己的结论很明确：

未来真正值钱的能力，不只是会用 agent，而是会给 agent 设计工作系统。

来源与参考

源文件： openai/notes.md

来源目录： /srv/project/harness-engineering

继续阅读

Framework 2 — Long-Running Multi-Session EngineeringUse this when a task will span many agent sessions or many context windows.Architecture invariantsThese are rules the repository should enforce mechanically where possible.docs/index.mdThis directory is the repository knowledge map.