← 所有标签

# 大模型

稀疏Transformer

这篇文章介绍了一种让 Transformer 更快、更省算力的稀疏化思路,核心是把原本稠密的注意力或计算结构改造成大规模稀疏形式。作者围绕 99% 稀疏这一目标,讨论了如何在尽量不损失效果的前提下大幅减少计算量,从而提升推理和训练效率。文章会解释这种方法为什么有效,以及它和传统 Transformer 在计算瓶颈上的差异。同时,文中也关注了稀疏化带来的工程实现问题,比如哪些部分可以稀疏、如何维持稳定性、以及加速是否真的能落地到实际硬件上。整体来看,这是一篇偏技术前沿的解析/解读文章,主要面向对大模型结构优化、稀疏注意力和高效推理感兴趣的读者。

DeepSeek-V4论文解读

摘要

这篇文章是对 DeepSeek-V4 开源发布的论文细节解读与实测对比。作者首先介绍了这次开源的两个版本:DeepSeek-V4-ProDeepSeek-V4-Flash,并给出了模型规模、激活参数以及对应的 Hugging Face 链接,整体语气是“终于等到,但也有一点小失望”。

文章明确指出,DeepSeek-V4 依然是纯文本模型,不是多模态模型,这让作者感到略微遗憾。不过他也强调,DeepSeek 作为国内团队仍然保持了很强的工程和研究自洽性,并继续坚持一种“不诱于誉,不恐于诽,率道而行”的路线。

在技术层面,文章重点讲解了 DeepSeek-V4 论文中的关键改进。作者提到,V4 在模型结构上引入了一些此前已有但实现细节不同的技术,其中包括 流形约束超连接(mHC),其目标是把残差映射约束到双随机矩阵流形上,从而增强跨层信号传播的稳定性。文章还讨论了混合压缩稀疏注意力(CSA)重度压缩注意力(HCA)等机制,以及 DeepSeek 稀疏注意力 DSA 的延续和扩展。

作者的整体判断是:DeepSeek-V4 在架构和训练策略上继续推进了长上下文、稀疏注意力和高效推理方向,但它并不是一次“颠覆式改变”,而更像是对前代思路的系统性加强和工程化收敛。文章也通过论文细节和图示,帮助读者理解 DeepSeek 为什么能在开源大模型领域持续保持领先或接近领先的位置。

在评测与实测对比部分,作者结合公开论文内容和实际体验,认为 V4-Pro 的能力更偏向高质量推理和复杂任务处理,而 V4-Flash 则更适合成本敏感、效率优先的使用场景。虽然这次没有带来多模态能力上的惊喜,但从纯文本模型的角度看,DeepSeek 依旧展示了很强的研究深度和工程一致性。

体会

这篇文章的重点不只是“DeepSeek-V4 发布了什么”,更是“为什么它这样设计”。作者用比较细的论文解读告诉读者:DeepSeek 的优势并不只来自参数规模,而来自它在架构、注意力机制和训练稳定性上的持续打磨。对于关注开源大模型的人来说,这是一篇偏技术向、适合理解 V4 设计逻辑的解读文章。

GPT-5.5来了

摘要

这篇文章围绕 OpenAI 新发布的 GPT-5.5 展开,核心想表达的不是“又更聪明了”这么简单,而是 OpenAI 试图证明:模型不仅可以更强,还可以更快。文章一开始就强调,这是一轮不同寻常的迭代——GPT-5.4 发布仅六周后,GPT-5.5 就已经推送给付费用户,节奏非常紧凑。

作者指出,GPT 系列长期以来面临一个行业悖论:模型越聪明,通常越慢、越贵。想获得更深的推理、更复杂的任务处理能力,就往往要接受更高的延迟和计算成本。GPT-5.5 的定位,就是试图打破这个默认取舍,在保持接近 GPT-5.4 推理延迟的同时,让智能水平再上一个台阶。

文章的核心判断是,OpenAI 这次不仅想证明“更聪明”,还想证明“更快”和“更强”可以同时成立。作者把 GPT-5.5 视为一次面向实际服务体验的升级,而不是单纯的参数炫技或 benchmark 冲榜。对于用户而言,这意味着更好的日常可用性;对于行业而言,这意味着模型迭代速度和产品体验可能再次被拉高。

文章还提到,目前不少体验反馈都认为 GPT-5.5 的综合表现很强,甚至让人感觉 OpenAI 可能在这一轮竞争中重新占到上风。整体来看,这篇内容是在强调一个信号:OpenAI 正在把竞争重点从单点“智力”扩展到速度、效率和服务体验的统一。

体会

这篇文章最值得关注的,不只是 GPT-5.5 本身,而是它背后的方向:大模型竞争正在从“谁更强”走向“谁能在可用延迟内更强”。如果这一方向持续成立,未来的胜负手可能不再只是模型能力上限,而是把高智能稳定交付给用户的能力。

百万上下文普惠时代

摘要

DeepSeek 发布了全新系列模型 DeepSeek-V4 的预览版,并同步开源。文章强调,这一代模型的最大亮点是“百万字级上下文”,意味着模型在处理超长文本、长链路任务和复杂 Agent 工作流时,能保持更强的记忆与理解能力。官方希望借此把百万上下文能力进一步普惠化,让更多用户和开发者可以直接使用。

文章把 DeepSeek-V4 分成两个版本:V4-ProV4-Flash。其中,V4-Pro 面向更高质量任务,重点强调推理、知识和 Agent 能力;V4-Flash 则主打更快、更经济,适合高频调用和成本敏感场景。两者都支持 1M 上下文,并可通过官网 App、chat.deepseek.com 以及 API 方式调用。

在能力表现上,V4-Pro 被描述为在 Agent 能力上有显著增强,尤其是在 Agentic Coding 场景中表现突出,已经接近或超过多款主流闭源模型的部分非思考模式体验。文章还强调,它在世界知识和推理方面也取得了较强成绩:在知识测评上大幅领先其他开源模型;在数学、STEM 和竞赛代码等任务上,则达到了比肩顶级闭源模型的水平。

对普通用户来说,这篇文章传递出的信号很直接:DeepSeek 希望把“超长上下文 + 强推理 + 强 Agent”组合,做成一个可以实际落地的大模型能力栈。V4-Pro 适合追求效果的复杂任务,V4-Flash 更适合强调速度、性价比和批量使用的场景。对于开发者而言,API 的 model_name 也已经更新,可以直接切换到对应型号进行调用。

体会

这篇发布信息最值得注意的,不只是模型性能数字本身,而是 DeepSeek 明确把“百万上下文”从实验性能力推进到了可使用、可调用、可普及的产品阶段。未来如果长文档理解、代码仓库级别 Agent、跨文档推理等场景进一步成熟,这类模型可能会显著改变大模型应用的工作方式。

中国最大的大模型套壳创业者

这篇文章讲的是 Cherry Studio 创始人王新铭(Yinsen)的创业经历,以及他为什么不介意把自己定义成“套壳”创业者。文章的核心观点是:在大模型能力由底层算力、数据和生态决定的前提下,真正重要的并不是谁能“发明模型”,而是谁能把模型能力转化成普通人可用的真实生产力。

文章先介绍了 Yinsen 的背景:他 1990 年生于山东临沂,早年经历过邮局柜台、PPTV、喜马拉雅、字节、依图、黑鲨等多段职业路径,最终在 2024 年开始创业 Cherry Studio。Cherry Studio 一开始就是从“套壳”大模型出发,做一个把多家模型 API 接进来的 Chatbot / AI Workspace。作者强调,Yinsen 并不认为“套壳”是贬义词,相反,这代表了一种极强的产品化能力:当底层模型本身已经足够强时,真正创造价值的是如何把能力组织起来、让用户高效使用。

文章大量描写了 Cherry Studio 的创业细节:早期办公室在上海嘉定南翔,一个老厂房里几十平米的空间,租金很低,椅子不够还得拿露营椅凑数;团队里除了创始人和合伙人,还有一些研究生开发者,Yinsen 甚至会给他们报销模型订阅费和外卖费,以此提高迭代速度。团队最初的扩张也不是靠大规模销售,而是靠“超级个体”自传播——那些需要 AI 工具维持专业度和生产力的人,会成为自然的使用者和推广者。

文章还回顾了 Yinsen 的前职业经历,尤其是他在邮局工作的阶段。他原本可能会走一条更传统、更稳定的道路,但一部 2011 年买的小米手机改变了他:他在手机上安装各种应用、给开发者提建议,逐渐被互联网公司注意到,人生轨迹也随之转向。后来他在依图科技接触到上一代 AI,更清楚地看到那种以监控识别为核心的 AI 和当下“大模型 + 工具”方向的差别:前者偏管理和结构化,后者更接近解放生产力、让普通人变强。

文章也讨论了他对行业的判断。Yinsen 认为,Claude Code 的出现标志着 Agent 进入了“原生时代”,也说明原生工具与底层生态深度集成的重要性;同时他不太认同一些团队声称做出“比 Claude Code 更强 Agent”的说法,认为这是违背技术演进常识的幻觉。作者把这种态度总结为一种“弱者思维”的技术信仰:不去给 AI 架拐棍,而是做一个能随水位上涨的小木板,让工具本身成为生产力的一部分。

最后,文章把 Yinsen 归为那种“不太会讲给 VC 听,但很会讲给人听”的创始人。他的创业故事里有很多现实细节、职业转折和个人感受,形成了一种更像“to human”的叙事。整篇文章的结论很清楚:大模型时代真正值钱的,未必是模型本身,而是把模型能力产品化、工具化、生态化的那一层。

连续扩散文本新突破

这篇文章介绍了 UIUC 团队提出的 LangFlow,核心目标是让连续扩散模型在文本生成上真正接近甚至追平当前最强的离散扩散模型。作者认为,过去连续扩散在语言建模里一直“打不过”离散扩散,根本原因不只是模型结构本身,而是理论、实现和技巧三个层面都存在缺口。

首先是理论层面。文章指出,之前的连续扩散语言模型在训练、采样和评估之间并不自洽:训练目标常常与流场学习没有严格对齐,评估困惑度时又依赖较弱的随机下界,导致研究者甚至难以判断模型优化到底有没有变好。LangFlow 通过 Bregman 散度把离散 token 的交叉熵损失与连续流匹配统一起来,并进一步推导出基于 ODE 的负对数似然上界,使训练、采样和评估能够放在同一个理论框架中,从而解决“训练和采样两张皮”的问题。

其次是实现层面。过去的连续扩散在语言任务上常常直接照搬图像扩散的经验,使用均匀的时间噪声调度,但作者发现这在语言任务中效率极低:大量中低噪声区间几乎没有学习价值,模型很容易就能预测正确 token。LangFlow 因此改用对数噪信比(logNSR)作为条件变量,并提出信息均匀原则,让每一个训练步都尽量承载等量信息。作者还用 Gumbel 分布来设计可学习的噪声调度器,把原本浪费在低价值区间的算力重新分配到更关键的高信息区域。这个改动显著降低了生成困惑度。

第三是技巧层面。文章重点讨论了 self-conditioning 在连续扩散中的作用。此前很多研究延续了离散扩散的习惯:在评估 PPL 时关闭 self-conditioning,因为离散扩散里它常常存在“生成变好、似然变差”的权衡。但 LangFlow 通过实验发现,连续扩散中 self-conditioning 没有这种 trade-off,反而会同时提升生成质量和似然表现。因此它在训练中以一定概率开启 self-conditioning,并在评估和采样时全程启用,从而进一步压低 PPL 和 Gen.PPL。

实验结果上,LangFlow 在 130M 参数的设置下取得了很强的竞争力,在 LM1B 等基准上首次让连续扩散在核心指标上追平甚至超过了最强离散扩散模型。文章也提醒,当前结果仍有边界:模型规模还不大,长上下文和工业级场景是否成立仍待验证;而连续扩散是否真有离散模型无法替代的独特优势,也还没有被完全证明。

总体来看,这篇文章的结论很明确:LangFlow 让连续扩散在文本建模上第一次真正建立了统一、可比、可优化的理论与工程框架,说明连续扩散并非天然不适合语言任务,只是过去的方法还没把关键环节补齐。

字节跳动与AI

这篇文章围绕字节跳动在 AI 时代的激进布局展开,核心问题是:当 AI 成为新一轮技术浪潮时,字节会是“新入口的创造者”,还是旧入口时代的最大赢家之一。

文章开头就把字节放在整个中国互联网 AI 混战的中心位置。作者认为,春节前后的一系列 AI 大战里,字节是最激进的一家:一边是大模型和视频生成模型的持续投入,一边是豆包、硬件终端、智能助手等产品线的快速推进。文章特别提到豆包手机助手、豆包手机等尝试,认为这类产品直接触碰到了超级入口和流量分发权的问题,因此引发了友商的强烈警惕。

文章接着把中国互联网公司的 AI 路线分成几类:字节更像激进派,阿里更像两线作战的通吃派,腾讯更像保守但会迅速跟进的保皇派,苹果则被拿来当作另一种路径的隐喻——不是直接下注 AI 入口,而是把顶尖模型吸收进自己的硬件和生态系统中。

作者认为,AI 时代真正关键的,不只是模型强不强,而是它会不会重构入口。传统互联网时代的逻辑是“干掉别人的入口,创造自己的入口”;而在 AI 时代,新的入口可能会绕开旧有 App 的界面和分发体系,直接替用户完成操作。这样一来,超级 App 可能从“入口”退化成“履约工具”。

文章大量使用历史类比来强化这一点,比如思科、运营商、苹果、微软、英特尔、柯达等公司在技术范式切换中的不同命运。作者用这些案例说明:技术变革会重新分配价值,曾经的护城河并不一定能在新的时代继续生效,甚至可能被新的交互方式和新的基础设施直接绕开。

在中国互联网内部,作者尤其强调字节的“先行动后思考”风格。相比很多大厂更倾向于把 AI 当作现有产品的插件,字节更像是直接把 AI 当成下一代操作方式来下注,并且在算力、人才和产品实验上都投入很重。文章认为,这种风格让字节在 AI 竞争中占了先手,但也意味着它必须承受更大的战略风险。

整体来看,这是一篇典型的产业观察长文,核心结论不是简单地“字节很强”,而是:AI 正在成为重塑互联网入口、流量分发和商业模式的新力量,而字节之所以被放到焦点位置,是因为它既可能成为这场变革的最大赢家,也可能是最先撞上旧秩序墙壁的那一批公司之一。

DeepSeek开启融资

这篇文章讨论的是 DeepSeek 计划开启外部融资,以及这背后可能意味着什么。作者先回顾了 DeepSeek 在 2025 年初爆火后的资本关注度:梁文锋一度非常低调,拒绝了不少投资机构的接触,但这次却传出要首次寻求外部资金,目标估值超过 100 亿美元、融资至少 3 亿美元。文章认为,这标志着 DeepSeek 长期坚持的“自我供血”模式可能开始变化。

作者把这次转向解释为多重因素叠加的结果。其一是资金压力和模型研发成本持续上升;其二是核心人才流失和新模型进展受阻,让外部融资显得更有必要;其三是行业竞争已经进入更残酷的新阶段,初创公司单靠内部资源很难持续跟大厂和全球头部模型竞争。文中还提到 DeepSeek 在 V4、国产芯片适配、算力投入上的进展与压力,说明它已经从“低成本高效率”的阶段,走到了“必须规模化投入”的阶段。

文章还写了投融资圈对梁文锋的“追逐”现象。自 DeepSeek 出圈之后,很多机构都在反思自己为什么没投进去,甚至到处托关系想见到梁文锋。作者借此强调,DeepSeek 的价值不仅在于模型能力本身,也在于它成为了资本和产业链共同关注的焦点。

整体上,这篇文章想表达的是:DeepSeek 这次融资不仅仅是“缺钱”,更像是公司从封闭研发走向更大规模、更开放治理的一次结构性转折。它背后反映的是 AI 竞争进入新阶段:算力更贵、人才更贵、追赶更难,想继续保持领先,就必须接受外部资本和更大规模资源的介入。