这是一篇由原始材料转换而来的阅读页,保留了源文件的主要结构,并补充了可追溯的来源说明与链接。

摘要

把 autoresearch 放在 harness engineering 下面,不是因为它只是一个小分支, 而是因为它天然依赖 harness:

autoresearchmarkdownarticle

Ideas

主题定位

把 autoresearch 放在 harness engineering 下面,不是因为它只是一个小分支, 而是因为它天然依赖 harness:

  • agent 如何被驱动
  • 可调用哪些工具
  • 允许改哪些文件
  • 如何评估结果
  • 如何记账
  • 如何中断与恢复

所以 autoresearch 不是一个孤立技巧, 而是一种 面向实验系统的 harness design

核心想法

1. 从“写提示词”转向“写运行制度”

真正有复利的,不是单条 prompt, 而是能稳定复用的运行制度。

例如: - 每轮只允许一个主假设 - 每次实验必须 commit - 每次运行必须记录指标 - 未达阈值必须回滚 - crash 必须归档原因

这些不是提示技巧, 而是制度设计。

2. 从“让 agent 更聪明”转向“让系统更稳健”

单纯提高模型能力当然有帮助, 但在实际工程里,更常见的瓶颈是:

  • 目标模糊
  • 边界不清
  • 记录缺失
  • 评估漂移
  • 无法复盘

因此,高质量 autoresearch 的关键不是神奇思维链, 而是让系统自然地产生:

  • 可比较的结果
  • 可保留的增量
  • 可撤销的失败
  • 可理解的轨迹

3. Autoresearch 是一种“搜索编排”

它不只关心“想法是否好”, 更关心:

  • 搜索空间如何定义
  • 搜索步长如何控制
  • 探索与利用如何平衡
  • 局部最优如何识别
  • 历史经验如何复用

4. program.md 是研究组织的接口层

program.md 不只是说明文档。 它是:

  • 人对 agent 的治理接口
  • 研究流程的可编辑控制面
  • 策略、边界、价值函数的声明位置

5. 未来值得研究的,不只是实验对象,还有 program 本身

可以继续向上抽象:

  • 哪种 program.md 更容易产生稳定增益?
  • 哪种 keep/discard 规则最有效?
  • 哪种日志格式最利于 agent 学会利用历史?
  • 多 agent 分工应如何设计?

换句话说: program 也可以成为被 autoresearch 的对象。

应用方向

  • 模型训练实验自动化
  • 代码优化闭环
  • benchmark 驱动改进
  • 提示策略搜索
  • agent workflow 自优化
  • harness policy A/B testing

设计偏好

我们偏好:

  • 小步、清晰、可归因的实验
  • 强约束下的自治
  • 可追踪的结果资产
  • 简洁优先于炫技
  • 可中断、可恢复、可接管

我们警惕:

  • 指标作弊
  • 隐式状态
  • 过度复杂的策略层
  • 无上限的搜索空间
  • 无法复现实验结论

来源与参考

源文件: autoresearch/IDEAS.md

来源目录: /srv/project/harness-engineering

继续阅读