这是一篇由原始材料转换而来的阅读页，保留了源文件的主要结构，并补充了可追溯的来源说明与链接。

摘要

把 autoresearch 放在 harness engineering 下面，不是因为它只是一个小分支，而是因为它天然依赖 harness：

autoresearchmarkdownarticle

Ideas

主题定位

把 autoresearch 放在 harness engineering 下面，不是因为它只是一个小分支，而是因为它天然依赖 harness：

agent 如何被驱动
可调用哪些工具
允许改哪些文件
如何评估结果
如何记账
如何中断与恢复

所以 autoresearch 不是一个孤立技巧，而是一种 面向实验系统的 harness design。

核心想法

1. 从“写提示词”转向“写运行制度”

真正有复利的，不是单条 prompt，而是能稳定复用的运行制度。

例如： - 每轮只允许一个主假设 - 每次实验必须 commit - 每次运行必须记录指标 - 未达阈值必须回滚 - crash 必须归档原因

这些不是提示技巧，而是制度设计。

2. 从“让 agent 更聪明”转向“让系统更稳健”

单纯提高模型能力当然有帮助，但在实际工程里，更常见的瓶颈是：

目标模糊
边界不清
记录缺失
评估漂移
无法复盘

因此，高质量 autoresearch 的关键不是神奇思维链，而是让系统自然地产生：

可比较的结果
可保留的增量
可撤销的失败
可理解的轨迹

3. Autoresearch 是一种“搜索编排”

它不只关心“想法是否好”，更关心：

搜索空间如何定义
搜索步长如何控制
探索与利用如何平衡
局部最优如何识别
历史经验如何复用

4. `program.md` 是研究组织的接口层

program.md 不只是说明文档。它是：

人对 agent 的治理接口
研究流程的可编辑控制面
策略、边界、价值函数的声明位置

5. 未来值得研究的，不只是实验对象，还有 program 本身

可以继续向上抽象：

哪种 program.md 更容易产生稳定增益？
哪种 keep/discard 规则最有效？
哪种日志格式最利于 agent 学会利用历史？
多 agent 分工应如何设计？

换句话说： program 也可以成为被 autoresearch 的对象。

应用方向

模型训练实验自动化
代码优化闭环
benchmark 驱动改进
提示策略搜索
agent workflow 自优化
harness policy A/B testing

设计偏好

我们偏好：

小步、清晰、可归因的实验
强约束下的自治
可追踪的结果资产
简洁优先于炫技
可中断、可恢复、可接管

我们警惕：

指标作弊
隐式状态
过度复杂的策略层
无上限的搜索空间
无法复现实验结论

来源与参考

源文件： autoresearch/IDEAS.md

来源目录： /srv/project/harness-engineering

继续阅读

FrameworkAn autoresearch system is a bounded experimental loop operated by one or more agents under Autoresearch ManifestoAutoresearch 不是“让 AI 随便跑一跑实验”。Philosophy清晰目标明确边界可见状态可审计结果可撤销后果

Ideas

Ideas

主题定位

核心想法

1. 从“写提示词”转向“写运行制度”

2. 从“让 agent 更聪明”转向“让系统更稳健”

3. Autoresearch 是一种“搜索编排”

4. program.md 是研究组织的接口层

5. 未来值得研究的，不只是实验对象，还有 program 本身

应用方向

设计偏好

来源与参考

继续阅读

4. `program.md` 是研究组织的接口层