这是一篇由原始材料转换而来的阅读页,保留了源文件的主要结构,并补充了可追溯的来源说明与链接。
摘要
把 autoresearch 放在 harness engineering 下面,不是因为它只是一个小分支, 而是因为它天然依赖 harness:
autoresearchmarkdownarticle
Ideas
主题定位
把 autoresearch 放在 harness engineering 下面,不是因为它只是一个小分支, 而是因为它天然依赖 harness:
- agent 如何被驱动
- 可调用哪些工具
- 允许改哪些文件
- 如何评估结果
- 如何记账
- 如何中断与恢复
所以 autoresearch 不是一个孤立技巧, 而是一种 面向实验系统的 harness design。
核心想法
1. 从“写提示词”转向“写运行制度”
真正有复利的,不是单条 prompt, 而是能稳定复用的运行制度。
例如: - 每轮只允许一个主假设 - 每次实验必须 commit - 每次运行必须记录指标 - 未达阈值必须回滚 - crash 必须归档原因
这些不是提示技巧, 而是制度设计。
2. 从“让 agent 更聪明”转向“让系统更稳健”
单纯提高模型能力当然有帮助, 但在实际工程里,更常见的瓶颈是:
- 目标模糊
- 边界不清
- 记录缺失
- 评估漂移
- 无法复盘
因此,高质量 autoresearch 的关键不是神奇思维链, 而是让系统自然地产生:
- 可比较的结果
- 可保留的增量
- 可撤销的失败
- 可理解的轨迹
3. Autoresearch 是一种“搜索编排”
它不只关心“想法是否好”, 更关心:
- 搜索空间如何定义
- 搜索步长如何控制
- 探索与利用如何平衡
- 局部最优如何识别
- 历史经验如何复用
4. program.md 是研究组织的接口层
program.md 不只是说明文档。
它是:
- 人对 agent 的治理接口
- 研究流程的可编辑控制面
- 策略、边界、价值函数的声明位置
5. 未来值得研究的,不只是实验对象,还有 program 本身
可以继续向上抽象:
- 哪种
program.md更容易产生稳定增益? - 哪种 keep/discard 规则最有效?
- 哪种日志格式最利于 agent 学会利用历史?
- 多 agent 分工应如何设计?
换句话说: program 也可以成为被 autoresearch 的对象。
应用方向
- 模型训练实验自动化
- 代码优化闭环
- benchmark 驱动改进
- 提示策略搜索
- agent workflow 自优化
- harness policy A/B testing
设计偏好
我们偏好:
- 小步、清晰、可归因的实验
- 强约束下的自治
- 可追踪的结果资产
- 简洁优先于炫技
- 可中断、可恢复、可接管
我们警惕:
- 指标作弊
- 隐式状态
- 过度复杂的策略层
- 无上限的搜索空间
- 无法复现实验结论
来源与参考
源文件: autoresearch/IDEAS.md
来源目录: /srv/project/harness-engineering