DeepSeek新论文揭秘
本文介绍了 DeepSeek 被撤下的一篇多模态新论文《Thinking with Visual Primitives》。文章的核心观点是:当前多模态大模型面临的不只是“看不清”,还包括“引用鸿沟”——即模型即使识别出了图像内容,也很难在推理过程中稳定、精确地指向图中的具体对象。
作者把问题拆成两个层面:一是感知鸿沟(Perception Gap),即模型看图分辨细节的能力;二是引用鸿沟(Reference Gap),即模型在思考时能否准确把注意力锚定到图中的某个点或区域。前者过去两年主要靠高分辨率、裁切、分块等方式改进,但后者更像是视觉推理真正卡住的地方。
DeepSeek 的思路很朴素:给模型“装一根手指”。具体来说,就是让模型在推理过程中输出点和框等空间坐标,把它们当作认知锚点,模拟人类“边指边想”的方式。文章用“数手指”作类比,说明当目标很多、空间关系复杂时,仅靠语言描述很容易丢失上下文,而点选/框选可以让推理更稳定。
文章认为,这篇论文之所以引人关注,不只是因为它提出了一个可能有效的新路径,也因为它暗示多模态模型的下一阶段竞争,未必只是更清晰地“看见”,而是能否更准确地“指认”与“定位”。