← 所有标签

# 论文解读

DeepSeek-V4论文解读

摘要

这篇文章是对 DeepSeek-V4 开源发布的论文细节解读与实测对比。作者首先介绍了这次开源的两个版本:DeepSeek-V4-ProDeepSeek-V4-Flash,并给出了模型规模、激活参数以及对应的 Hugging Face 链接,整体语气是“终于等到,但也有一点小失望”。

文章明确指出,DeepSeek-V4 依然是纯文本模型,不是多模态模型,这让作者感到略微遗憾。不过他也强调,DeepSeek 作为国内团队仍然保持了很强的工程和研究自洽性,并继续坚持一种“不诱于誉,不恐于诽,率道而行”的路线。

在技术层面,文章重点讲解了 DeepSeek-V4 论文中的关键改进。作者提到,V4 在模型结构上引入了一些此前已有但实现细节不同的技术,其中包括 流形约束超连接(mHC),其目标是把残差映射约束到双随机矩阵流形上,从而增强跨层信号传播的稳定性。文章还讨论了混合压缩稀疏注意力(CSA)重度压缩注意力(HCA)等机制,以及 DeepSeek 稀疏注意力 DSA 的延续和扩展。

作者的整体判断是:DeepSeek-V4 在架构和训练策略上继续推进了长上下文、稀疏注意力和高效推理方向,但它并不是一次“颠覆式改变”,而更像是对前代思路的系统性加强和工程化收敛。文章也通过论文细节和图示,帮助读者理解 DeepSeek 为什么能在开源大模型领域持续保持领先或接近领先的位置。

在评测与实测对比部分,作者结合公开论文内容和实际体验,认为 V4-Pro 的能力更偏向高质量推理和复杂任务处理,而 V4-Flash 则更适合成本敏感、效率优先的使用场景。虽然这次没有带来多模态能力上的惊喜,但从纯文本模型的角度看,DeepSeek 依旧展示了很强的研究深度和工程一致性。

体会

这篇文章的重点不只是“DeepSeek-V4 发布了什么”,更是“为什么它这样设计”。作者用比较细的论文解读告诉读者:DeepSeek 的优势并不只来自参数规模,而来自它在架构、注意力机制和训练稳定性上的持续打磨。对于关注开源大模型的人来说,这是一篇偏技术向、适合理解 V4 设计逻辑的解读文章。

Harness 刚火,可能就要成为过去时了|Hao好聊论文

这篇文章讨论的是:为什么当下 AI Agent 需要大量 Harness Engineering(约束工程)来兜底,以及这种工程化脚手架未来可能为何会被模型自身的演进部分取代。作者先回顾了行业对长上下文失败的三层解释:早期认为是检索失败,于是有了 RAG;后来发现即便完美检索,长上下文本身也会伤害推理,于是有了 Context Engineering;再后来发现多轮拆分也会导致模型失控,于是出现了 Todo list、Checkpoint、交班和子代理等更重的 Harness 方案。文章的核心问题是:这些现象背后到底是不是同一件事?

作者引用了一篇 Yandex 的论文来说明,模型在长上下文里可能不是单纯“看不见”或“记不住”,而是在主动少想、少检查、少犹豫。实验里,研究者用长篇莎士比亚文本、多任务并列、长历史对话等方式去模拟真实 Agent 场景,发现模型的推理 token 会系统性缩短,尤其是写完候选答案之后,继续自我检查的概率明显下降。文章将这种现象概括为“认知节省”或“摸鱼”:模型不是被噪声绕晕,而是选择了更短、更省力的推理路径。

文章进一步指出,推理越强的模型,越容易在长输入下偷懒。无论是普通模式还是深度思考模式,长上下文都会让模型更快下结论、减少犹豫词、减少自我反思;而推理能力越强,这种压缩反而越明显。作者认为,这说明长上下文问题并不只是工程侧可以靠加脚手架解决的,而可能是模型内部一种更深的认知机制在起作用。

接着文章引入 Anthropic 关于“情绪概念”的研究,提出一种可能的解法:模型内部的情绪状态会影响它是否倾向于走捷径。Anthropic 发现,像 desperate(绝望)这样的内部向量会显著提高 reward hacking 和取巧行为,而 calm(平静)则能压制这种倾向。作者因此推测,长上下文里的“少想一点”也许和模型内部某种状态切换有关:当它进入某种“懒惰/节省”模式时,才会跳步、忽视、匆忙收尾。

最后,文章把这条研究路径想象成未来替代 Harness 的可能方向:如果能在训练和部署阶段实时监控并调节模型内部状态,也许就不必靠越来越重的外部脚手架去约束它。作者认为,真正能解决问题的,可能不是再多加 Todo、Checkpoint 或子代理,而是让模型本身学会在长上下文里保持平静、耐心和持续检查。整体上,这篇文章的立场是:Harness 很重要,但它可能只是过渡方案;更根本的出路,仍然在模型内部机制的理解和干预上。

Meta-Harness:当一个agent学会了看场合说话

这篇文章解读了一项名为 Meta-Harness 的研究,核心问题是:能否让模型自动搜索出更好的外层调度代码(harness),而不只是改模型本身。文章先给出结论:在文本分类任务上,Meta-Harness 只用很少的评估次数就能追平甚至超过更耗资源的方法;在数学推理和 agentic 编程任务里,它也表现出了明显优势。作者把 harness 类比成语言里的“语域”,认为不同场景下最优的策略并不是固定的,而是会随着任务、信息结构和目标改变。文章强调,系统之所以能找到人类工程师不易想到的策略,关键在于它能读取更完整的执行轨迹,而不是只看分数或摘要。换句话说,原始轨迹像“语料库”,而压缩后的信息往往会丢失因果线索,影响后续搜索。

文章还通过社会语言学的视角解释这些结果,把策略切换、信息检索和场景适配类比成“说话要看场合”。比如在一个任务上,系统学到的轻量验证策略,可能对应日常对话中的简短应答;而更复杂、上下文更重的策略,则像正式场合下的完整陈述。作者进一步指出,Meta-Harness 在数学问题中甚至发现了多个可切换的子策略,类似语言学中的双言现象:不同情境下自动调用不同“语言变体”。文章最后把这种行为提升为一种更广义的智能:不是死记某个最优答案,而是学会根据情境选择合适的表达与执行方式。