多模态 - 古法信息流

DeepSeek新论文揭秘

微信原文链接

本文介绍了 DeepSeek 被撤下的一篇多模态新论文《Thinking with Visual Primitives》。文章的核心观点是：当前多模态大模型面临的不只是“看不清”，还包括“引用鸿沟”——即模型即使识别出了图像内容，也很难在推理过程中稳定、精确地指向图中的具体对象。

作者把问题拆成两个层面：一是感知鸿沟（Perception Gap），即模型看图分辨细节的能力；二是引用鸿沟（Reference Gap），即模型在思考时能否准确把注意力锚定到图中的某个点或区域。前者过去两年主要靠高分辨率、裁切、分块等方式改进，但后者更像是视觉推理真正卡住的地方。

DeepSeek 的思路很朴素：给模型“装一根手指”。具体来说，就是让模型在推理过程中输出点和框等空间坐标，把它们当作认知锚点，模拟人类“边指边想”的方式。文章用“数手指”作类比，说明当目标很多、空间关系复杂时，仅靠语言描述很容易丢失上下文，而点选/框选可以让推理更稳定。

文章认为，这篇论文之所以引人关注，不只是因为它提出了一个可能有效的新路径，也因为它暗示多模态模型的下一阶段竞争，未必只是更清晰地“看见”，而是能否更准确地“指认”与“定位”。

AI DeepSeek 多模态视觉推理2026-05-02

字节Seedance 2.0发论文了，171人署名，吴永辉曾妍在列

微信公众号原文链接

这篇文章介绍了字节跳动 Seed 团队的 Seedance 2.0 论文，重点强调它在 AI 视频生成上的能力提升。文章说，这个模型已经在 arXiv 上公开论文，并且配套放出了较完整的 benchmark 和作者名单，显示出团队规模和工程投入都非常大。作者认为 Seedance 2.0 的核心特点，是把文本、图像、视频和音频统一到一个生成系统里，能同时理解并融合多模态输入。

文章列举了它在实际生成中的几个卖点：人物动作更自然、多人互动不容易乱、音画同步更好、口型更准，而且还能自动分镜、运镜和控制叙事节奏。除了生成效果，文章也强调它在多个主流 benchmark 上表现很强，整体进入第一梯队。作者还提到 Seedance 2.0 已经通过 Byteplus 向全球多个国家的企业客户开放 API，但美国市场暂时不在列表中。

文章最后花了不少篇幅谈团队与人才动态：Seedance 2.0 的作者署名人数达到 170+，团队相较上一代有较大换血，但吴永辉和曾妍等核心人物仍然在列。文中还提到外界关于高薪挖人的传闻，以及字节内部对 Seed 团队期权和长期收益的描述。整体来看，这篇文章主要是在强调字节在视频生成赛道上的技术进展、团队体量和商业化推进速度。

字节 Seedance 视频生成多模态论文2026-04-17

# 多模态

DeepSeek新论文揭秘

字节Seedance 2.0发论文了，171人署名，吴永辉曾妍在列