Meta-Harness：当一个agent学会了看场合说话

这篇文章解读了一项名为 Meta-Harness 的研究，核心问题是：能否让模型自动搜索出更好的外层调度代码（harness），而不只是改模型本身。文章先给出结论：在文本分类任务上，Meta-Harness 只用很少的评估次数就能追平甚至超过更耗资源的方法；在数学推理和 agentic 编程任务里，它也表现出了明显优势。作者把 harness 类比成语言里的“语域”，认为不同场景下最优的策略并不是固定的，而是会随着任务、信息结构和目标改变。文章强调，系统之所以能找到人类工程师不易想到的策略，关键在于它能读取更完整的执行轨迹，而不是只看分数或摘要。换句话说，原始轨迹像“语料库”，而压缩后的信息往往会丢失因果线索，影响后续搜索。

文章还通过社会语言学的视角解释这些结果，把策略切换、信息检索和场景适配类比成“说话要看场合”。比如在一个任务上，系统学到的轻量验证策略，可能对应日常对话中的简短应答；而更复杂、上下文更重的策略，则像正式场合下的完整陈述。作者进一步指出，Meta-Harness 在数学问题中甚至发现了多个可切换的子策略，类似语言学中的双言现象：不同情境下自动调用不同“语言变体”。文章最后把这种行为提升为一种更广义的智能：不是死记某个最优答案，而是学会根据情境选择合适的表达与执行方式。