← 所有标签

# 文本生成

连续扩散文本新突破

这篇文章介绍了 UIUC 团队提出的 LangFlow,核心目标是让连续扩散模型在文本生成上真正接近甚至追平当前最强的离散扩散模型。作者认为,过去连续扩散在语言建模里一直“打不过”离散扩散,根本原因不只是模型结构本身,而是理论、实现和技巧三个层面都存在缺口。

首先是理论层面。文章指出,之前的连续扩散语言模型在训练、采样和评估之间并不自洽:训练目标常常与流场学习没有严格对齐,评估困惑度时又依赖较弱的随机下界,导致研究者甚至难以判断模型优化到底有没有变好。LangFlow 通过 Bregman 散度把离散 token 的交叉熵损失与连续流匹配统一起来,并进一步推导出基于 ODE 的负对数似然上界,使训练、采样和评估能够放在同一个理论框架中,从而解决“训练和采样两张皮”的问题。

其次是实现层面。过去的连续扩散在语言任务上常常直接照搬图像扩散的经验,使用均匀的时间噪声调度,但作者发现这在语言任务中效率极低:大量中低噪声区间几乎没有学习价值,模型很容易就能预测正确 token。LangFlow 因此改用对数噪信比(logNSR)作为条件变量,并提出信息均匀原则,让每一个训练步都尽量承载等量信息。作者还用 Gumbel 分布来设计可学习的噪声调度器,把原本浪费在低价值区间的算力重新分配到更关键的高信息区域。这个改动显著降低了生成困惑度。

第三是技巧层面。文章重点讨论了 self-conditioning 在连续扩散中的作用。此前很多研究延续了离散扩散的习惯:在评估 PPL 时关闭 self-conditioning,因为离散扩散里它常常存在“生成变好、似然变差”的权衡。但 LangFlow 通过实验发现,连续扩散中 self-conditioning 没有这种 trade-off,反而会同时提升生成质量和似然表现。因此它在训练中以一定概率开启 self-conditioning,并在评估和采样时全程启用,从而进一步压低 PPL 和 Gen.PPL。

实验结果上,LangFlow 在 130M 参数的设置下取得了很强的竞争力,在 LM1B 等基准上首次让连续扩散在核心指标上追平甚至超过了最强离散扩散模型。文章也提醒,当前结果仍有边界:模型规模还不大,长上下文和工业级场景是否成立仍待验证;而连续扩散是否真有离散模型无法替代的独特优势,也还没有被完全证明。

总体来看,这篇文章的结论很明确:LangFlow 让连续扩散在文本建模上第一次真正建立了统一、可比、可优化的理论与工程框架,说明连续扩散并非天然不适合语言任务,只是过去的方法还没把关键环节补齐。