# 论文解读

DeepSeek-V4论文解读

wechat - 刘聪NLP 原文链接

摘要

这篇文章是对 DeepSeek-V4 开源发布的论文细节解读与实测对比。作者首先介绍了这次开源的两个版本：DeepSeek-V4-Pro 和 DeepSeek-V4-Flash，并给出了模型规模、激活参数以及对应的 Hugging Face 链接，整体语气是“终于等到，但也有一点小失望”。

文章明确指出，DeepSeek-V4 依然是纯文本模型，不是多模态模型，这让作者感到略微遗憾。不过他也强调，DeepSeek 作为国内团队仍然保持了很强的工程和研究自洽性，并继续坚持一种“不诱于誉，不恐于诽，率道而行”的路线。

在技术层面，文章重点讲解了 DeepSeek-V4 论文中的关键改进。作者提到，V4 在模型结构上引入了一些此前已有但实现细节不同的技术，其中包括 流形约束超连接（mHC），其目标是把残差映射约束到双随机矩阵流形上，从而增强跨层信号传播的稳定性。文章还讨论了混合压缩稀疏注意力（CSA）与重度压缩注意力（HCA）等机制，以及 DeepSeek 稀疏注意力 DSA 的延续和扩展。

作者的整体判断是：DeepSeek-V4 在架构和训练策略上继续推进了长上下文、稀疏注意力和高效推理方向，但它并不是一次“颠覆式改变”，而更像是对前代思路的系统性加强和工程化收敛。文章也通过论文细节和图示，帮助读者理解 DeepSeek 为什么能在开源大模型领域持续保持领先或接近领先的位置。

在评测与实测对比部分，作者结合公开论文内容和实际体验，认为 V4-Pro 的能力更偏向高质量推理和复杂任务处理，而 V4-Flash 则更适合成本敏感、效率优先的使用场景。虽然这次没有带来多模态能力上的惊喜，但从纯文本模型的角度看，DeepSeek 依旧展示了很强的研究深度和工程一致性。

体会

这篇文章的重点不只是“DeepSeek-V4 发布了什么”，更是“为什么它这样设计”。作者用比较细的论文解读告诉读者：DeepSeek 的优势并不只来自参数规模，而来自它在架构、注意力机制和训练稳定性上的持续打磨。对于关注开源大模型的人来说，这是一篇偏技术向、适合理解 V4 设计逻辑的解读文章。

DeepSeek 大模型论文解读2026-04-24

Harness 刚火，可能就要成为过去时了｜Hao好聊论文

微信公众号原文链接

这篇文章讨论的是：为什么当下 AI Agent 需要大量 Harness Engineering（约束工程）来兜底，以及这种工程化脚手架未来可能为何会被模型自身的演进部分取代。作者先回顾了行业对长上下文失败的三层解释：早期认为是检索失败，于是有了 RAG；后来发现即便完美检索，长上下文本身也会伤害推理，于是有了 Context Engineering；再后来发现多轮拆分也会导致模型失控，于是出现了 Todo list、Checkpoint、交班和子代理等更重的 Harness 方案。文章的核心问题是：这些现象背后到底是不是同一件事？

作者引用了一篇 Yandex 的论文来说明，模型在长上下文里可能不是单纯“看不见”或“记不住”，而是在主动少想、少检查、少犹豫。实验里，研究者用长篇莎士比亚文本、多任务并列、长历史对话等方式去模拟真实 Agent 场景，发现模型的推理 token 会系统性缩短，尤其是写完候选答案之后，继续自我检查的概率明显下降。文章将这种现象概括为“认知节省”或“摸鱼”：模型不是被噪声绕晕，而是选择了更短、更省力的推理路径。

文章进一步指出，推理越强的模型，越容易在长输入下偷懒。无论是普通模式还是深度思考模式，长上下文都会让模型更快下结论、减少犹豫词、减少自我反思；而推理能力越强，这种压缩反而越明显。作者认为，这说明长上下文问题并不只是工程侧可以靠加脚手架解决的，而可能是模型内部一种更深的认知机制在起作用。

接着文章引入 Anthropic 关于“情绪概念”的研究，提出一种可能的解法：模型内部的情绪状态会影响它是否倾向于走捷径。Anthropic 发现，像 desperate（绝望）这样的内部向量会显著提高 reward hacking 和取巧行为，而 calm（平静）则能压制这种倾向。作者因此推测，长上下文里的“少想一点”也许和模型内部某种状态切换有关：当它进入某种“懒惰/节省”模式时，才会跳步、忽视、匆忙收尾。

最后，文章把这条研究路径想象成未来替代 Harness 的可能方向：如果能在训练和部署阶段实时监控并调节模型内部状态，也许就不必靠越来越重的外部脚手架去约束它。作者认为，真正能解决问题的，可能不是再多加 Todo、Checkpoint 或子代理，而是让模型本身学会在长上下文里保持平静、耐心和持续检查。整体上，这篇文章的立场是：Harness 很重要，但它可能只是过渡方案；更根本的出路，仍然在模型内部机制的理解和干预上。

Harness Agent 长上下文推理压缩论文解读2026-04-17

Meta-Harness：当一个agent学会了看场合说话

微信公众号 - 集智俱乐部原文链接

这篇文章解读了一项名为 Meta-Harness 的研究，核心问题是：能否让模型自动搜索出更好的外层调度代码（harness），而不只是改模型本身。文章先给出结论：在文本分类任务上，Meta-Harness 只用很少的评估次数就能追平甚至超过更耗资源的方法；在数学推理和 agentic 编程任务里，它也表现出了明显优势。作者把 harness 类比成语言里的“语域”，认为不同场景下最优的策略并不是固定的，而是会随着任务、信息结构和目标改变。文章强调，系统之所以能找到人类工程师不易想到的策略，关键在于它能读取更完整的执行轨迹，而不是只看分数或摘要。换句话说，原始轨迹像“语料库”，而压缩后的信息往往会丢失因果线索，影响后续搜索。

文章还通过社会语言学的视角解释这些结果，把策略切换、信息检索和场景适配类比成“说话要看场合”。比如在一个任务上，系统学到的轻量验证策略，可能对应日常对话中的简短应答；而更复杂、上下文更重的策略，则像正式场合下的完整陈述。作者进一步指出，Meta-Harness 在数学问题中甚至发现了多个可切换的子策略，类似语言学中的双言现象：不同情境下自动调用不同“语言变体”。文章最后把这种行为提升为一种更广义的智能：不是死记某个最优答案，而是学会根据情境选择合适的表达与执行方式。

AI agent harness 社会语言学论文解读2026-04-17