← 所有标签

# 多模态

DeepSeek新论文揭秘

本文介绍了 DeepSeek 被撤下的一篇多模态新论文《Thinking with Visual Primitives》。文章的核心观点是:当前多模态大模型面临的不只是“看不清”,还包括“引用鸿沟”——即模型即使识别出了图像内容,也很难在推理过程中稳定、精确地指向图中的具体对象。

作者把问题拆成两个层面:一是感知鸿沟(Perception Gap),即模型看图分辨细节的能力;二是引用鸿沟(Reference Gap),即模型在思考时能否准确把注意力锚定到图中的某个点或区域。前者过去两年主要靠高分辨率、裁切、分块等方式改进,但后者更像是视觉推理真正卡住的地方。

DeepSeek 的思路很朴素:给模型“装一根手指”。具体来说,就是让模型在推理过程中输出点和框等空间坐标,把它们当作认知锚点,模拟人类“边指边想”的方式。文章用“数手指”作类比,说明当目标很多、空间关系复杂时,仅靠语言描述很容易丢失上下文,而点选/框选可以让推理更稳定。

文章认为,这篇论文之所以引人关注,不只是因为它提出了一个可能有效的新路径,也因为它暗示多模态模型的下一阶段竞争,未必只是更清晰地“看见”,而是能否更准确地“指认”与“定位”。

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

这篇文章介绍了字节跳动 Seed 团队的 Seedance 2.0 论文,重点强调它在 AI 视频生成上的能力提升。文章说,这个模型已经在 arXiv 上公开论文,并且配套放出了较完整的 benchmark 和作者名单,显示出团队规模和工程投入都非常大。作者认为 Seedance 2.0 的核心特点,是把文本、图像、视频和音频统一到一个生成系统里,能同时理解并融合多模态输入。

文章列举了它在实际生成中的几个卖点:人物动作更自然、多人互动不容易乱、音画同步更好、口型更准,而且还能自动分镜、运镜和控制叙事节奏。除了生成效果,文章也强调它在多个主流 benchmark 上表现很强,整体进入第一梯队。作者还提到 Seedance 2.0 已经通过 Byteplus 向全球多个国家的企业客户开放 API,但美国市场暂时不在列表中。

文章最后花了不少篇幅谈团队与人才动态:Seedance 2.0 的作者署名人数达到 170+,团队相较上一代有较大换血,但吴永辉和曾妍等核心人物仍然在列。文中还提到外界关于高薪挖人的传闻,以及字节内部对 Seed 团队期权和长期收益的描述。整体来看,这篇文章主要是在强调字节在视频生成赛道上的技术进展、团队体量和商业化推进速度。