← 所有标签

# long-context

How SSA Makes Long Context Practical

这篇文章介绍了 SubQ 提出的 SSA(Subquadratic Sparse Attention)架构,以及它为什么能让长上下文在实际生产中更可用。文章的核心观点是:企业 AI 真正困难的问题,往往不是“没有答案”,而是答案分散在超长上下文里,需要模型把多个片段同时纳入视野才能做出可靠判断。

作者先指出,代码库、合同、研究语料、数据库和长期运行的智能体会话,本质上都是长上下文问题。传统的 dense attention 让每个 token 与所有其他 token 两两计算,虽然能力强,但时间和计算开销会随着序列长度呈平方增长,因此在几十万到百万 token 规模上很快变得昂贵。文章强调,长上下文不仅仅是“更大的窗口”,而是“更可靠的推理窗口”。

随后文章对比了现有系统级补丁的局限。RAG 能按语义召回相关内容,但往往会丢失位置、层级、邻近上下文和引用结构;agent 流程可以把大任务拆开,但会带来多次压缩、误差累积和手工编排。FlashAttention 虽然优化了实现方式,减少了显存和内存搬运成本,但并没有改变 attention 仍然是平方级计算这一根本事实。

文章接着解释 SSA 的思路:它通过内容相关的选择机制,把注意力路由到真正重要的位置,而不是强迫每个 token 与所有 token 交互。这样做的目标不是牺牲检索能力去换速度,而是在保留长上下文检索能力的同时,把计算复杂度降下来。作者把它描述为一种更接近“功能性长上下文”的方案,而不是单纯扩大上下文窗口。

在效果上,文章声称 SubQ 在 MRCR v2 等长上下文任务上能跟前沿 dense-attention 模型保持竞争力,并在 100 万 token 下实现 52.2 倍的 prefill 加速。作者据此认为,SSA 让百万 token 上下文更便宜、更快,也更适合企业场景中的代码理解、文档检索和长任务推理。

文章最后的结论是:长上下文真正需要的是能稳定在大规模输入下保持检索与推理质量的架构,而 SSA 的意义就在于尽量减少围绕 dense attention 叠加的大量工程补丁,让模型本身更适合长上下文生产部署。