← 所有标签

# DeepSeek

DeepSeek万亿战略

文章摘要

这篇文章围绕 DeepSeek 的商业路径展开推演,核心观点是:DeepSeek 表面上似乎没有像其他模型厂商那样全力做编程订阅、多模态或语音视频应用,但这并不意味着它缺乏商业化方向;相反,作者认为它是在通过模型架构、推理优化与开源策略,推动一整套更宏大的 AI 硬件与算力生态。

文章首先从 KV Cache 的压缩与长上下文成本谈起,强调 DeepSeek 在减少显存压力方面的创新会显著降低长程推理和长上下文智能体的成本。作者认为,这类技术不仅能提升模型推理效率,还会间接扩大 SSD、NAND、LPDDR 等存储与内存组件的需求,因为更便宜、更小的缓存让“把数据转存到更低成本介质上”变得更可行。

接着,文章把这种技术路线放到更大的产业图景里解读:如果模型对 HBM 的依赖下降,那么中国本土的 NAND、LPDDR 供应链就有机会成为 AI 时代的重要受益者。作者认为,DeepSeek 的一系列选择并非单纯为了做应用层收入,而是在降低 AI 使用门槛的同时,推动一套可由中国本土硬件支撑的替代性生态。

文章还提到 DeepSeek 的一些研究方向,例如 MoE、MLA、mHC、CSA/HSA 等,认为这些创新共同指向一个目标:以更低的计算和通信成本提升模型能力,压缩推理开销,并让国产 GPU/ASIC 与网络芯片更“够用”,从而在现实产业中形成联动效应。

最后,作者将这一切总结为一盘“10 万亿美元大棋”:DeepSeek 的目标不只是单一模型产品的收入,而是借由开源、架构创新和推理优化,推动 AI 成本下降,进而带动存储、内存、芯片、封装、网络等上下游产业链的发展,并在中西方 AI 硬件竞争中形成新的力量平衡。

DeepSeek新论文揭秘

本文介绍了 DeepSeek 被撤下的一篇多模态新论文《Thinking with Visual Primitives》。文章的核心观点是:当前多模态大模型面临的不只是“看不清”,还包括“引用鸿沟”——即模型即使识别出了图像内容,也很难在推理过程中稳定、精确地指向图中的具体对象。

作者把问题拆成两个层面:一是感知鸿沟(Perception Gap),即模型看图分辨细节的能力;二是引用鸿沟(Reference Gap),即模型在思考时能否准确把注意力锚定到图中的某个点或区域。前者过去两年主要靠高分辨率、裁切、分块等方式改进,但后者更像是视觉推理真正卡住的地方。

DeepSeek 的思路很朴素:给模型“装一根手指”。具体来说,就是让模型在推理过程中输出点和框等空间坐标,把它们当作认知锚点,模拟人类“边指边想”的方式。文章用“数手指”作类比,说明当目标很多、空间关系复杂时,仅靠语言描述很容易丢失上下文,而点选/框选可以让推理更稳定。

文章认为,这篇论文之所以引人关注,不只是因为它提出了一个可能有效的新路径,也因为它暗示多模态模型的下一阶段竞争,未必只是更清晰地“看见”,而是能否更准确地“指认”与“定位”。

离开DeepSeek

这篇访谈围绕王子涵的研究经历、在 DeepSeek 的一线实践,以及他对 Agent 方向的长期思考展开。文章先从他在社交媒体上被更多人注意到的经历写起:随着 DeepSeek R1、V3 等模型发布,外界开始关注这家公司和站在一线的研究者,而他选择做的事情并不是包装故事,而是尽量把真实的一线情况讲清楚。文章强调,真正定义他的不是短期“走红”,而是长期持续投入的 Agent system 研究路径。

王子涵的科研路径从人大时期就已经开始显现。他从推荐系统、搜索与信息检索切入,逐步接触强化学习和 Agent benchmark 研究,再到进入 DeepSeek 后围绕 MoE 专家专业化深入探索,后来继续把问题推进到 Agent 强化学习的底层机制。他关心的核心问题很朴素:AI 系统能不能像人一样,在没有持续外部指导的情况下自主学习、自主改进;更进一步,能不能在行动之前,先在内部完成对世界的预演和模拟。

文章还总结了他对“什么是 Agent”的理解:Agent 不只取决于模型本身,更取决于它所处的环境。给它开放的计算机环境,它就更接近 OpenClaw;给它受限的环境,它更像 Claude Code 或 Codex;只给聊天界面,它又更像 GPT。也就是说,环境开放程度决定了 Agent 的智能释放程度。基于这个视角,他希望打造的是能够适应资源约束、把不同规模资源都用出效果的 Agent,而不是只在理想条件下表现出色的系统。

在回顾早期科研经历时,文章写到他从统计学兴趣出发,主动联系老师进入人工智能相关课题组,做推荐系统和搜索算法等较传统的研究。那时的工作很多是手工设计、流程繁琐,但也让他更早感受到 AI 在现实应用中的价值。随后,他在 DeepSeek 看到了更高密度的研究氛围:几乎人人都在做研究相关的事情,工程同事也会积极讨论前沿进展;前辈甚至会逐行帮新同学改代码。这种环境促使他建立起一种“逆向思考”:有些看起来高深的东西未必真的成立,而一些看似工程化的任务,真正做起来反而需要扎实功夫。

整篇文章的主旨可以概括为:王子涵并不是把研究当成单点突破,而是沿着“理解智能—定义环境—改进行动”的链条持续推进。他对 Agent 的关注不是追热点,而是希望通过长期研究,让系统真正具备自主学习、环境适应和资源伸缩能力。

DeepSeek-V4论文解读

摘要

这篇文章是对 DeepSeek-V4 开源发布的论文细节解读与实测对比。作者首先介绍了这次开源的两个版本:DeepSeek-V4-ProDeepSeek-V4-Flash,并给出了模型规模、激活参数以及对应的 Hugging Face 链接,整体语气是“终于等到,但也有一点小失望”。

文章明确指出,DeepSeek-V4 依然是纯文本模型,不是多模态模型,这让作者感到略微遗憾。不过他也强调,DeepSeek 作为国内团队仍然保持了很强的工程和研究自洽性,并继续坚持一种“不诱于誉,不恐于诽,率道而行”的路线。

在技术层面,文章重点讲解了 DeepSeek-V4 论文中的关键改进。作者提到,V4 在模型结构上引入了一些此前已有但实现细节不同的技术,其中包括 流形约束超连接(mHC),其目标是把残差映射约束到双随机矩阵流形上,从而增强跨层信号传播的稳定性。文章还讨论了混合压缩稀疏注意力(CSA)重度压缩注意力(HCA)等机制,以及 DeepSeek 稀疏注意力 DSA 的延续和扩展。

作者的整体判断是:DeepSeek-V4 在架构和训练策略上继续推进了长上下文、稀疏注意力和高效推理方向,但它并不是一次“颠覆式改变”,而更像是对前代思路的系统性加强和工程化收敛。文章也通过论文细节和图示,帮助读者理解 DeepSeek 为什么能在开源大模型领域持续保持领先或接近领先的位置。

在评测与实测对比部分,作者结合公开论文内容和实际体验,认为 V4-Pro 的能力更偏向高质量推理和复杂任务处理,而 V4-Flash 则更适合成本敏感、效率优先的使用场景。虽然这次没有带来多模态能力上的惊喜,但从纯文本模型的角度看,DeepSeek 依旧展示了很强的研究深度和工程一致性。

体会

这篇文章的重点不只是“DeepSeek-V4 发布了什么”,更是“为什么它这样设计”。作者用比较细的论文解读告诉读者:DeepSeek 的优势并不只来自参数规模,而来自它在架构、注意力机制和训练稳定性上的持续打磨。对于关注开源大模型的人来说,这是一篇偏技术向、适合理解 V4 设计逻辑的解读文章。

DeepSeek救恒科

摘要

这篇文章把 DeepSeek-V4 的发布,放在港股和恒生科技指数的大背景下来看,认为它不仅是一次模型发布,更是一次对市场预期和产业链信心的“点火”。作者的核心观点是:DeepSeek 又一次在关键时点救了恒科一命

文章开头提到,DeepSeek V4 预览版官宣上线后,港股市场迅速反应,芯片制造环节和互联网 AI 相关公司都出现明显上涨,恒生科技指数也从下跌中拉回。作者认为,这背后反映的不只是题材炒作,而是市场开始真正把 DeepSeek 视为推动 AI 产业链重估的关键变量。

文章用一句话概括 DeepSeek V4 的价值:它把“长上下文”的成本打到了地板,把多领域能力融合做到天花板,并且主动拥抱国产芯片,让好用的 AI 变得更便宜、更普惠。这一代模型延续了 DeepSeek 一贯的低价策略,也因此让更多原本无法成立的应用场景变得商业可行,尤其是长文档分析、Agent 任务、跨会话记忆等方向。

更重要的是,作者把焦点从“模型能力”进一步延伸到“算力国产化”。文中强调,DeepSeek V4 已全面适配华为昇腾芯片,底层从 CUDA 迁移到 CANN,并在昇腾 950PR 上实现大幅推理提速。这被作者视为一个非常强的信号:国产大模型并不一定只能依赖英伟达生态,国产算力也可以承载顶级模型,并且形成自己的产业闭环。

文章还提到,华为通过“超节点”这种系统级互联方式,把大量昇腾芯片组织成更强的整体算力平台;而 DeepSeek 则用极低成本的大模型能力,进一步放大了这种国产算力的商业价值。两者结合起来,意味着 AI 推理成本有机会继续下降,千行百业真正接入 AI 的门槛也会继续降低。

作者的最终判断是:DeepSeek 不只是“救了恒科”,更是在推动整个 AI 产业从“概念阶段”进入“普惠阶段”。它带来的不是单一股价波动,而是对成本结构、技术路径、算力生态和行业预期的一次重构。

体会

这篇文章的重点不在模型细节,而在宏观影响:DeepSeek 这类低成本、高性能、国产适配的大模型,正在成为港股 AI 资产和国产算力链条的重要催化剂。它体现出的趋势是——未来 AI 的竞争,除了模型参数和 benchmark,更是成本、生态和产业协同的竞争。

AI扩散方向

这篇文章讨论的是 AI 行情在前期光模块、光通信等强势方向之后,后续还有哪些板块可能继续扩散。作者认为,本轮科技风格回归并不只是估值修复,而更偏向业绩验证后景气预期上修,因此具备一定持续性。

文章指出,当前 TMT 板块整体并没有积累过多超额收益,但光通信等绩优方向已经出现成交过热迹象,所以后续需要更加关注板块内部的扩散机会。换句话说,主线还在,但资金会从最强的细分方向逐渐向其他低位高景气品种扩散。

作者从四个维度筛选扩散机会:一季报亮点、年初以来盈利预期变动、海外映射、国内催化。基于这些维度,文章把继续受益的方向分成北美算力链、国产算力与 AIDC 基础设施、中下游软件服务和端侧应用等几大类。

在上游硬件里,文章继续看好 PCB、光模块、液冷、服务器、存储芯片等方向,同时也强调电力电网、算力租赁等 AIDC 配套设施的重要性。作者认为,这些方向虽然不一定最先启动,但在业绩和景气支撑下,仍有补涨空间。

在中下游环节,文章把 AI 编程、办公软件、游戏、金融科技、智慧医疗、消费电子等列为值得关注的低位绩优方向。它的逻辑是,当上游算力形成共识后,产业链利润和市场注意力会逐步向软件应用和终端产品扩散。

文章还特别提到 DeepSeek V4 可能带来的边际催化,认为其国产化、多模态和编程能力上的突破,可能进一步抬升国产算力和国内应用链的预期。作者因此建议,后续可以更关注国产芯片、半导体材料设备、算力租赁、电力电网以及多模态相关应用。

整体来看,这是一篇偏策略框架的行业研究摘要,核心不是推荐单一股票,而是告诉读者如何从“光”向“AI内部其他方向”寻找轮动机会。它传递的判断很明确:如果科技行情继续向前推进,扩散大概率会围绕算力、国产替代、应用落地这三条线展开。

DeepSeek开启融资

这篇文章讨论的是 DeepSeek 计划开启外部融资,以及这背后可能意味着什么。作者先回顾了 DeepSeek 在 2025 年初爆火后的资本关注度:梁文锋一度非常低调,拒绝了不少投资机构的接触,但这次却传出要首次寻求外部资金,目标估值超过 100 亿美元、融资至少 3 亿美元。文章认为,这标志着 DeepSeek 长期坚持的“自我供血”模式可能开始变化。

作者把这次转向解释为多重因素叠加的结果。其一是资金压力和模型研发成本持续上升;其二是核心人才流失和新模型进展受阻,让外部融资显得更有必要;其三是行业竞争已经进入更残酷的新阶段,初创公司单靠内部资源很难持续跟大厂和全球头部模型竞争。文中还提到 DeepSeek 在 V4、国产芯片适配、算力投入上的进展与压力,说明它已经从“低成本高效率”的阶段,走到了“必须规模化投入”的阶段。

文章还写了投融资圈对梁文锋的“追逐”现象。自 DeepSeek 出圈之后,很多机构都在反思自己为什么没投进去,甚至到处托关系想见到梁文锋。作者借此强调,DeepSeek 的价值不仅在于模型能力本身,也在于它成为了资本和产业链共同关注的焦点。

整体上,这篇文章想表达的是:DeepSeek 这次融资不仅仅是“缺钱”,更像是公司从封闭研发走向更大规模、更开放治理的一次结构性转折。它背后反映的是 AI 竞争进入新阶段:算力更贵、人才更贵、追赶更难,想继续保持领先,就必须接受外部资本和更大规模资源的介入。

刚刚,梁文锋被曝史上首次融资!DeepSeek V4彻底摆脱英伟达

这篇文章围绕“梁文锋首次融资”与“DeepSeek V4”展开,试图说明 DeepSeek 接下来可能会有更大的资本和技术动作。
标题本身强调了两个冲击点:一是融资消息,二是 DeepSeek V4 被解读为要摆脱英伟达体系的依赖。
文章的主要叙事是,DeepSeek 在算力与模型路线上的变化,可能意味着它正在尝试更强的自主性。
作者把这个消息写得非常重磅,意在突出其对 AI 行业格局的影响。
文中明显带有行业热点解读的风格,重点不是复述融资细节,而是把它放到“国产 AI / 算力独立”的大背景下理解。
从标题和摘要看,文章想传达的核心信号是:DeepSeek 正在从外部算力依赖中寻找新的路径。
文章也延续了新智元一贯的写法,使用强烈标题和趋势判断来吸引读者注意。
整体上,这是一篇围绕 DeepSeek 最新动向的 AI 热点评论文章。
它关注的不只是融资本身,更是融资背后可能折射出的技术路线、生态选择和行业竞争。
如果用一句话概括,就是:这篇文章在解读 DeepSeek 可能通过融资和架构变化,进一步摆脱对英伟达的依赖。