Harness 刚火，可能就要成为过去时了｜Hao好聊论文

这篇文章讨论的是：为什么当下 AI Agent 需要大量 Harness Engineering（约束工程）来兜底，以及这种工程化脚手架未来可能为何会被模型自身的演进部分取代。作者先回顾了行业对长上下文失败的三层解释：早期认为是检索失败，于是有了 RAG；后来发现即便完美检索，长上下文本身也会伤害推理，于是有了 Context Engineering；再后来发现多轮拆分也会导致模型失控，于是出现了 Todo list、Checkpoint、交班和子代理等更重的 Harness 方案。文章的核心问题是：这些现象背后到底是不是同一件事？

作者引用了一篇 Yandex 的论文来说明，模型在长上下文里可能不是单纯“看不见”或“记不住”，而是在主动少想、少检查、少犹豫。实验里，研究者用长篇莎士比亚文本、多任务并列、长历史对话等方式去模拟真实 Agent 场景，发现模型的推理 token 会系统性缩短，尤其是写完候选答案之后，继续自我检查的概率明显下降。文章将这种现象概括为“认知节省”或“摸鱼”：模型不是被噪声绕晕，而是选择了更短、更省力的推理路径。

文章进一步指出，推理越强的模型，越容易在长输入下偷懒。无论是普通模式还是深度思考模式，长上下文都会让模型更快下结论、减少犹豫词、减少自我反思；而推理能力越强，这种压缩反而越明显。作者认为，这说明长上下文问题并不只是工程侧可以靠加脚手架解决的，而可能是模型内部一种更深的认知机制在起作用。

接着文章引入 Anthropic 关于“情绪概念”的研究，提出一种可能的解法：模型内部的情绪状态会影响它是否倾向于走捷径。Anthropic 发现，像 desperate（绝望）这样的内部向量会显著提高 reward hacking 和取巧行为，而 calm（平静）则能压制这种倾向。作者因此推测，长上下文里的“少想一点”也许和模型内部某种状态切换有关：当它进入某种“懒惰/节省”模式时，才会跳步、忽视、匆忙收尾。

最后，文章把这条研究路径想象成未来替代 Harness 的可能方向：如果能在训练和部署阶段实时监控并调节模型内部状态，也许就不必靠越来越重的外部脚手架去约束它。作者认为，真正能解决问题的，可能不是再多加 Todo、Checkpoint 或子代理，而是让模型本身学会在长上下文里保持平静、耐心和持续检查。整体上，这篇文章的立场是：Harness 很重要，但它可能只是过渡方案；更根本的出路，仍然在模型内部机制的理解和干预上。