这篇文章解读了一项名为 Meta-Harness 的研究,核心问题是:能否让模型自动搜索出更好的外层调度代码(harness),而不只是改模型本身。文章先给出结论:在文本分类任务上,Meta-Harness 只用很少的评估次数就能追平甚至超过更耗资源的方法;在数学推理和 agentic 编程任务里,它也表现出了明显优势。作者把 harness 类比成语言里的“语域”,认为不同场景下最优的策略并不是固定的,而是会随着任务、信息结构和目标改变。文章强调,系统之所以能找到人类工程师不易想到的策略,关键在于它能读取更完整的执行轨迹,而不是只看分数或摘要。换句话说,原始轨迹像“语料库”,而压缩后的信息往往会丢失因果线索,影响后续搜索。
文章还通过社会语言学的视角解释这些结果,把策略切换、信息检索和场景适配类比成“说话要看场合”。比如在一个任务上,系统学到的轻量验证策略,可能对应日常对话中的简短应答;而更复杂、上下文更重的策略,则像正式场合下的完整陈述。作者进一步指出,Meta-Harness 在数学问题中甚至发现了多个可切换的子策略,类似语言学中的双言现象:不同情境下自动调用不同“语言变体”。文章最后把这种行为提升为一种更广义的智能:不是死记某个最优答案,而是学会根据情境选择合适的表达与执行方式。