今日阅读

每天读过文章的摘要整理

从开源狂热到应用为王,AI 正在回归常识

这篇文章讨论的是 AI 行业正在从“开源狂热”和“模型刷榜”回归到更现实的商业与应用共识。作者认为,过去两年行业主线虽然看起来变化很多,但本质上是从 Chat、Coding、Agent 一路演化到更强调实际交付和商业价值的阶段。文章的第一个重点是:头部模型厂商对开源和闭源的态度正在发生变化,旗舰模型越来越倾向于闭源或部分闭源,而开源更多保留在次级产品线或生态层。

作者把这种变化解释为商业化的自然选择,而不是单纯的技术立场转变。随着模型能力逐渐接近、同质化增强,真正拉开差距的已经不只是“是否开源”,而是能不能形成能力壁垒、成本优势和收入闭环。文章还借百度、Meta、MiniMax、智谱等厂商的路线变化说明:今天真正重要的是模型是否能支持高价值任务,并支撑持续的商业投入。

第二个重点是“应用为王”。作者认为,模型是发动机,但用户买单的是应用和系统能力,因此 harness、产品形态和任务流程比单纯 token 消耗更重要。文章强调,token 本身不创造价值,只有当它被用于编程、科研、数据处理、复杂分析等能嵌入组织流程的场景时,才真正转化为商业价值。换句话说,AI 行业的价值中心正在从模型层往应用层和系统层迁移。

第三个重点是 Agent,也就是智能体。作者认为,智能体代表了 AI 从“回答问题”走向“完成任务”的关键变化:它要调工具、拆任务、记忆上下文、恢复失败、协同多个智能体,最终输出可交付结果。文章把 Agent 看成 AI 时代的主流产品形态,并认为这也是为什么各家模型公司都在全力补 Agent 能力。对于作者来说,真正重要的不是模型有多聪明,而是它能否在真实世界里帮用户完成高价值复杂任务。

文章最后的结论是,AI 行业正在从“证明自己很聪明”转向“证明自己有价值”。闭源回归、应用优先、Agent 起飞,这些看似分散的变化,本质上都指向同一个方向:行业正在走向更成熟、更务实的阶段。作者认为,未来谁都还有机会,但机会更可能出现在可持续的商业模式和端到端系统能力上,而不是单纯的 benchmark 或参数规模上。

在探索未知中享受生命

这篇文章主要在谈“探索未知”的价值,作者用自己早年读书和买书的经历,反衬今天教育环境中越来越多的“指定阅读”和标准化安排。作者认为,以前获取知识不容易,但因为自由选择空间更大,阅读和探索反而更有乐趣;现在很多孩子从小就被家长、学校和教培体系安排得很满,连读什么书、上什么课、周末怎么安排都被预设好了,结果会让学习变成任务而不是兴趣。

文章的核心观点是:人之所以会成长,不是因为被安排得很完整,而是因为有好奇心和自驱力。作者强调,真正有价值的不是“背会多少知识”,而是探索未知的能力、试错能力,以及由经历积累出来的“活人感”。在 AI 时代,这种活人感尤其重要,因为它包含了真实经历、感受和分享互动,而不是只会看结论、查答案。

文章还把这个观点延伸到教育和职业选择上。作者认为,未来真正需要的人才,并不一定是传统教育体系里最标准化的那批,而可能更早在高中阶段就显露出探索能力的人。文中也批评了某些人把教育简化成考证、考编、考公的路径,认为这种思路和未来越来越弱化的编制化岗位并不匹配。整体上,这篇文章更像是一篇面向家长和年轻人的人生观建议:不要过度剥夺自己和下一代去探索未知的机会,因为真正有意义的,不是结果本身,而是探索的过程。

均值不回归?

这篇文章讨论“均值回归”这个概念为什么经常被误用,核心是提醒读者不要把所有波动都理解成会自动回到一个固定中枢。作者先指出,很多人把“均值回归”理解成一种宇宙自带的平衡机制,但在独立随机事件里,事件本身并没有记忆,前面连续发生什么并不会改变下一次结果。因此,像抛硬币、轮盘赌这类场景里,赌徒谬误就是把短期随机波动误当成了必然回弹。

文章接着讨论第二类误解:把历史价格误认为内在价值。作者认为,很多人看到股票从高点跌下来,就自然觉得它“应该反弹”,但这种判断前提是均值本身稳定,而现实里很多资产的价值中枢会随时间下移,甚至直接归零。对于基本面持续恶化的公司来说,真正的均值回归不是回到过去高价,而是继续向更低的真实价值靠拢。

在这个基础上,文章进一步延伸出几个常见的认知偏差。比如,并不是所有分布都像正态分布那样有稳定均值;在财富、流量和创新领域,幂律分布和马太效应往往更常见,因此强者恒强、小公司继续边缘化的现象并不罕见。作者还提到“范式转移”和“反身性”:环境变化会让旧均值失效,而价格本身的剧烈变化又会反过来影响基本面,使所谓“均值回归”失去原来的锚点。

整体上,这篇文章想表达的是:均值回归只在特定条件下成立,不能被当作一种对所有系统都适用的万能规律。对于投资、概率和复杂系统决策,更重要的是先判断均值是否真的稳定、分布是否符合假设、以及价格变化是否会反过来影响价值。

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

这篇文章介绍了字节跳动 Seed 团队的 Seedance 2.0 论文,重点强调它在 AI 视频生成上的能力提升。文章说,这个模型已经在 arXiv 上公开论文,并且配套放出了较完整的 benchmark 和作者名单,显示出团队规模和工程投入都非常大。作者认为 Seedance 2.0 的核心特点,是把文本、图像、视频和音频统一到一个生成系统里,能同时理解并融合多模态输入。

文章列举了它在实际生成中的几个卖点:人物动作更自然、多人互动不容易乱、音画同步更好、口型更准,而且还能自动分镜、运镜和控制叙事节奏。除了生成效果,文章也强调它在多个主流 benchmark 上表现很强,整体进入第一梯队。作者还提到 Seedance 2.0 已经通过 Byteplus 向全球多个国家的企业客户开放 API,但美国市场暂时不在列表中。

文章最后花了不少篇幅谈团队与人才动态:Seedance 2.0 的作者署名人数达到 170+,团队相较上一代有较大换血,但吴永辉和曾妍等核心人物仍然在列。文中还提到外界关于高薪挖人的传闻,以及字节内部对 Seed 团队期权和长期收益的描述。整体来看,这篇文章主要是在强调字节在视频生成赛道上的技术进展、团队体量和商业化推进速度。

抖音再不克制,微信就要偷着笑了

这篇文章讨论的是抖音和微信在内容分发、商业化和产品基因上的差异。作者认为,抖音正在把最核心的短视频体验用来补贴最边际的增长业务,所以广告变多、本地生活导流变强,导致用户体验越来越被商业化侵蚀。文章用自己抽样的 20 个视频中有 7 个广告的例子,强调抖音当前的商业化压力非常大,短视频里已经越来越像“在广告里找视频”。

文章进一步指出,抖音在本地生活、电商等领域的快速增长背后,代价就是对主站内容体验的持续消耗。为了缓解这种矛盾,抖音开始推动独立 App,把一些增长业务从主站拆出去单独经营,但作者认为这只是承认了一个现实:主站已经很难同时承载“内容体验”和“商业转化”两个目标。换句话说,独立拆分能缓冲压力,却未必能根治内容生态被商业化侵蚀的问题。

相比之下,文章认为微信的产品逻辑更偏“连接关系”而不是“消耗流量”。公众号、视频号、小店、小程序等新功能,都被嵌入在社交链和信任关系里,不会像抖音那样直接挤压主页面体验。作者的判断是:微信只要保持克制,就能在内容质量和社交关系上维持自己的优势,甚至让视频号在长期竞争中继续追赶甚至反超抖音。

整体来看,这篇文章的核心观点是:抖音和微信的增长模型已经分岔,一个是用内容去变现、另一个是用关系去扩展。抖音越想商业化,主站越可能被自己削弱;微信则因为功能扩展与社交链天然一致,反而更容易保持产品体验的稳定。

推荐一个我做的 APP:Gamepix

这篇文章介绍了作者自己做的一款 iPhone 应用 Gamepix,核心用途是把 Steam 或 PlayStation 的游戏库同步到本地,并用更好看的方式展示出来。作者先从自己的使用场景讲起:买游戏很容易,真正通关的很少,所以想要一个“游戏墙”来把这些游戏像收藏品一样展示出来。与市面上一些功能复杂、噪声很多的游戏库 App 不同,Gamepix 的定位更朴素,重点放在整理、展示和欣赏游戏收藏本身。

文章详细介绍了 Gamepix 的主要功能。它可以按网格或列表展示游戏,并支持按标题、评分、游玩时长、成就完成度等维度排序,也可以按标签筛选。进入详情页后,能看到封面、评分、时长、成就、截图、开发商、发行商、发售日期、支持语言和配置需求等信息。作者还专门为全成就游戏做了一个铝合金质感的金属铭牌和彩带效果,作为一种“奖励感”的视觉彩蛋。

文章里最强调的部分是“游戏墙(Game Wall)”。这面墙会把所有玩过的游戏拼贴成一张大图,其中最有特色的是“时长模式”:游戏玩得越久,封面尺寸越大,像一面按投入程度排列的收藏墙。作者还提到墙面可以切换竖版/横版封面、调节密度、切换不同灯光效果,并且可以直接保存成高分辨率图片。对作者来说,这个页面是 Gamepix 最有审美感、也最像“作品”的部分。

文章也没有回避产品上的难点。最主要的问题是游戏库同步比较麻烦,Steam 和 PSN 的接口稳定性、登录认证和 API 获取都不简单。另一个问题是数据匹配不完整,有些游戏没有竖版封面,有些游戏的图像资源拉不下来,还有些 PSN 游戏的奖杯和列表要靠英文名桥接。作者还分享了自己在算法和视觉细节上的反复打磨过程,说明很多看似简单的体验其实都经历了多轮迭代。

最后,文章把 Gamepix 作为一次 Vibe Coding 的实践来总结。作者认为,AI 可以帮助快速把想法做出来,但真正重要的是你知道自己想做什么、什么值得做,以及背后的逻辑怎么拆。对于作者来说,这个 App 不是创业项目,而是一个花了两周做出来、能满足自己创作欲的小作品。整体来看,这篇文章更像是一篇“用 AI 做出自己真正想用的产品”的体验分享,而不只是一个 App 推广文。

段永平不小心成了泡泡玛特的榜一大哥

这篇文章讲的是段永平因为卖出泡泡玛特看跌期权时忽略了港股和美股期权单位差异,结果“误操作”成了可能的巨额持仓,甚至有机会成为泡泡玛特第三大股东。作者先解释了段永平的策略本质:这是一种典型的价值投资式卖 put,相当于先收保费、未来若股价跌到约定价位再接盘。问题出在泡泡玛特港股期权和美股规则不同,1 张期权对应 200 股,而不是他熟悉的 100 股,导致他原本以为对应 2250 万股,实际却变成了 4500 万股。

文章随后分析了这次“乌龙”为什么反而推高了泡泡玛特股价。由于段永平在 150 港元附近摆下了近 68 亿港元的接盘盘面,做空机构的砸盘空间被压缩,空头被迫回补,市场也因为“大佬背书”而更乐观。于是泡泡玛特股价在两天里出现明显上涨,市值增加了不少。作者把这件事包装成一次“手滑带飞股价”的市场事件。

文章还回顾了段永平对泡泡玛特态度的转变。最初他并不看懂这门生意,把潮玩类比成电子宠物、呼啦圈等短周期爆款,担心需求不可持续;但在看到泡泡玛特 2025 年财报后,他重新审视这家公司,认为其品牌认知、艺术家签约、全球门店网络和创始团队构成了较强壁垒。作者因此认为,段永平的态度变化本身,也说明泡泡玛特开始进入价值投资者的视野。

文章最后的落点,是泡泡玛特是否正在被市场重新定价。作者认为,过去很多人把它当成“年轻人的玩具生意”,但现在连价值投资圈的代表人物都开始认真研究并入场,说明市场对这类新消费品牌的看法正在变化。整体上,这篇文章是在讲一场因期权单位差异引发的投资乌龙,但背后真正想表达的是:泡泡玛特的商业逻辑,正在被更严肃的资本市场重新评估。

演绎法还是归纳法

这篇文章围绕“演绎法”和“归纳法”的差异展开,作者借近期围绕伊朗局势的判断过程,说明为什么单纯依靠信息堆砌和经验归纳,往往会得出看似合理、实际上脆弱的结论。文章先批评了互联网时代大量“卖课”“卖资料”的现象,指出很多人以为自己通过收集资料提升了认知,实际上只是占有了更多垃圾信息。作者认为,在 AI 时代,信息生产更便宜,低质量内容的泛滥会让人更容易陷入“看什么都有道理”的状态。

接着,文章引入卡尔·波普尔的认识论,强调演绎法的核心不是“罗列事实然后得出结论”,而是不断提出可证伪的判断,再通过现实中的反馈去排除错误认识。作者把伊朗案例作为例子,认为在美伊冲突中,很多基于表面条件的归纳判断都被现实逐一证伪,比如“伊朗会快速崩溃”“改革派会趁机上台”“伊朗人民会起义欢迎外部干预”等等。文章的重点不是证明哪一个判断一定正确,而是说明:真正有价值的认知,是能够经受证伪过程的认知。

文章还进一步讨论了如何通过证伪不断修正判断。作者认为,判断不是一次性的结论,而是一个持续更新的过程:当某个预期被现实推翻时,应该继续追问为什么被推翻、下一步会发生什么、哪些条件还没有被充分考虑。文中多次提到,某些看似“预测失败”的点,其实是更大推理链条中的一个中间环节,不能脱离前后文单独看待。最后,作者把这种方法总结为一种更贴近现实的思维方式:不是沉迷于“归纳出一个漂亮结论”,而是持续做证伪、修正、再推演。

整体来看,这篇文章的主旨是倡导一种以证伪为核心的演绎式思考,反对只靠信息堆积和表层归纳做判断。

腾讯,新王难立?

这篇文章围绕腾讯天美的《王者荣耀世界》展开,讨论它作为一款王者 IP 衍生开放世界 RPG 的机会与风险。文章先指出,这款产品背靠国民级 IP、巨大的用户基础和成熟运营经验,表面上开局声势很强,但实际上进入的是一个已经竞争激烈、玩家口味更挑剔的开放世界赛道。作者认为,王者 IP 的核心优势在于长期积累的英雄设定和情感资产,但这些内容能否稳定转化为持续可玩的开放世界内容,仍然是关键问题。

文章进一步分析了 IP 转化的局限:王者世界观中真正拥有完整故事线的英雄并不算多,大量角色仍偏标签化,因此把二维设定改造成可交互、可探索的大世界内容,需要大量美术、剧情和玩法投入。即便游戏通过地图、支线和彩蛋强化代入感,很多内容对老玩家来说仍然是“熟悉的旧元素”,新鲜感未必能长期维持。作者也指出,开放世界 RPG 的内容生产速度通常跟不上玩家消耗速度,因此很容易陷入版本更新压力越来越大、内容质量下降的循环。

在玩法层面,文章认为《王者荣耀世界》虽然保留了英雄技能手感,并加入闪避、跳跃、空中连段等立体战斗元素,但整体仍更像是在成熟模板上做适配,而不是在机制上实现突破。副本、种田、拍照等系统也被认为与市面常见开放世界产品较为接近,差异化主要还是来自王者 IP,而不是玩法本身。作者因此担心,一旦剥离 IP 光环,这款游戏可能缺少足够不可替代的竞争力。

商业化方面,文章重点讨论了它放弃角色抽卡、转而以外观消费和便利性道具为主的策略。作者认为,这套方案在 MOBA 中更容易成立,因为皮肤在强对抗、高社交场景里有很强的展示属性;但在开放世界 RPG 中,玩家更多处于单人探索和任务推进中,外观的社交价值会明显下降。与此同时,便利性道具虽然不直接卖数值,但如果养成节奏和体力、材料获取过于绑定付费,也可能慢慢滑向变相数值化,带来免费玩家流失的问题。

文章最后认为,《王者荣耀世界》面临的最大矛盾,是它试图同时满足核心玩家和休闲玩家,但这两类用户对难度、深度、节奏和养成负担的要求天然冲突。王者老玩家习惯的是短平快的竞技反馈,而开放世界 RPG 需要更长周期的探索和成长;非王者用户则可能因为世界观门槛和英雄关系梗而难以快速进入。总体而言,文章的结论比较谨慎:这款产品拥有很强的起点,但要真正破圈,不能只靠 IP 光环,必须拿出足够扎实、可持续、且真正属于“大世界”的内容成色。

颠覆传统前端终端!Vercel 开源 wterm:Zig 与 WASM 驱动的极致性能革命

这篇文章介绍了 Vercel Labs 开源的 Web 终端项目 wterm,并把它定位为对 xterm.js 的一次架构挑战。文章认为,传统 Web 终端虽然性能强,但在文本选择、浏览器查找、无障碍访问和包体积方面存在明显代价。wterm 的核心思路是把终端解析器用 Zig 实现,再编译成一个约 12KB 的 WASM 模块,从而在保持体积很小的同时提高逃逸序列解析效率。为了进一步简化集成,作者提到这个 WASM 资源可以直接 Base64 内联进 JavaScript 包里,尽量做到零配置使用。

在渲染层,wterm 选择回归纯 DOM,而不是继续依赖 Canvas 或 WebGL。文章强调,这样做的直接收益是恢复浏览器原生文本选择、原生查找和屏幕阅读器可访问性。为了避免 DOM 全量重绘带来的性能问题,wterm 使用脏行追踪和 requestAnimationFrame,只更新发生变化的行。文章还提到它对 Unicode 块状字符做了更优雅的处理,通过 CSS 渐变等方式减少字体差异带来的错位问题。

在生态上,wterm 被拆成多个包:@wterm/core 负责底层解析与状态管理,@wterm/dom 负责浏览器渲染,@wterm/react 则提供 React 组件和 Hook 封装。文章认为这种分层让它既能作为底层引擎,也能方便接入现代前端栈。除此之外,wterm 还支持 CSS 变量主题、24 位真彩色、ResizeObserver 自适应和备用屏幕缓冲区,因此可以比较完整地承载 vim、less、htop 这类全屏终端应用。整体来看,这篇文章的主旨是:wterm 试图用“Zig + WASM + DOM”的组合,重新定义轻量、高性能、可访问的 Web 终端实现方式。

高毅资产孙庆瑞:全球视角下的中国创新药价值奇点

这篇文章是高毅资产合伙人、基金经理孙庆瑞在年度报告会上的演讲整理,核心主题是:中国创新药正迎来全球视角下的价值重估奇点。作者先从医药行业的长期属性讲起,认为医药是一个永恒成长行业,因为人类对生命、更长寿命和更好治疗的需求不会停止。文章用过去几十年医疗保健行业的稳健表现说明,医药行业的增长和人类健康需求高度绑定。

接下来,文章把“药王”作为医药投资超额收益的关键来源。作者列举了立普妥、K 药和替尔泊肽等代表性药物,强调真正能推动药企市值跃迁的,不是普通管线,而是能定义时代的重磅创新药。由此推导出中国创新药的机会:如果中国企业能在下一代疗法上产出“药王”,就有机会拿到极高的 Alpha。

文章认为,中国创新药已经从过去的跟跑、甚至缺席,逐步走向并跑、局部领跑。作者强调中国在 ADC、双抗、小核酸等前沿赛道中已经成为全球中坚力量,凭借庞大的研发人才、临床效率和成本优势,形成了“多、快、好、省”的工程师红利。与此同时,全球大药企正处在专利悬崖前的补货周期中,对外合作和管线补强需求很强,这给中国创新药出海提供了窗口。

文章后半部分重点讲“出海”对估值扩张的重要性。作者把中国创新药的全球化路径分成造船出海、借船出海和 Co-Co 共开发三类,并指出一旦进入全球市场,药物的商业价值会远高于仅限本土市场的定价逻辑。通过一个 PD-1 药物的例子,作者说明全球定价和利润分成可以把市值空间拉高数倍。

最后,文章把 AI 作为医药行业未来的重要底层赋能技术,并用一个宠物癌症定制疫苗的案例说明 AI 在药物研发和生物理解上的潜力。整体上,这篇文章的结论是:中国创新药已经具备从本土资产升级为全球资产的条件,而真正的价值奇点,来自于创新能力、全球化和 AI 技术共同推动下的估值重构。

黄仁勋:不卖AI芯片给中国,是把市场拱手送给华为

这篇文章围绕黄仁勋在播客中的一段表态展开:他认为,如果美国限制向中国出售 AI 芯片,结果未必是阻止中国发展 AI,反而可能把市场和开发者生态拱手送给华为。文章的核心不是“要不要卖芯片”这么简单,而是讨论全球 AI 竞争到底是争一时的算力领先,还是争长期的技术栈和生态主导权。

文章先借 Anthropic 的 Mythos 模型举例,说明高能力模型已经开始展现出强大的网络安全和漏洞发现能力,因此出口管制者担心中国获得更多算力后会更快训练出类似能力。黄仁勋并不否认竞争存在,但他认为中国并不缺算力,也不会因为限制就停下 AI 进展。相反,真正重要的是能源、算法、架构、开发者生态和技术栈归属这些更底层的因素。

文章进一步展开双方的分歧:Dwarkesh 关注的是“时间窗口”——美国是否需要通过算力优势尽量延缓对手;而黄仁勋关注的是全球生态的归属——如果把中国开发者推向华为体系,长期损失可能比短期领先更大。文中多次强调,AI 竞争不只是芯片数量之争,而是标准、平台和开发者站队之争。

为了支撑这种观点,文章引用了黄仁勋对中国算力、能源和芯片制造能力的判断:他认为中国并非没有芯片,而是有庞大的主流芯片产能、丰富的能源和足够多的 AI 人才;即便在制程上存在差距,也可以通过更多芯片和更大规模的数据中心来弥补。文章最后把这一切总结为一个结论:美国真正应该争取的,不只是暂时领先,更是让全球 AI 生态继续围绕美国技术栈运转。

Anthropic 正式推出 Claude Opus 4.7

Anthropic 在 2026 年 4 月 16 日正式发布 Claude Opus 4.7,并向所有用户和 API 开放访问,价格与 Opus 4.6 保持一致。文章首先强调,这次升级的重点不是单纯的“更大”,而是更适合高难度、长周期任务的稳定执行能力。

它在复杂工作上的表现更强,尤其是代码类任务、长上下文任务和多步骤推理任务。文章提到,Opus 4.7 会更严格地遵循指令,并且在输出前更主动做自检,这让一些原本需要人工紧盯的任务,可以更放心地交给模型处理。

视觉能力也是这次更新的重点之一。新版本支持更高分辨率的图像输入,适合处理复杂截图、图表和需要精细识别的信息抽取场景。文章同时提醒,旧版本写法的 prompt 迁移到 4.7 后,可能会出现行为变化,因为它对字面指令执行得更严格。

在 benchmark 上,Opus 4.7 在金融 Agent、代码编写、文档推理和长上下文等方向都超过了 4.6。文章特别指出,它在衡量经济价值知识工作的 GDPval-AA 上达到了当前最优水平,说明它不只是“会聊”,而是更偏向可落地的生产力工具。

这次发布还带来了一些配套能力。Anthropic 新增了介于 high 和 max 之间的 xhigh 努力等级,给开发者更细的推理控制;Claude Code 也把默认努力等级提升到了 xhigh。API 侧还推出了 Task Budgets 公测,方便开发者控制长任务中的 token 成本。

文章最后补充了安全和迁移注意事项。Anthropic 为 Opus 4.7 加入了新的网络安全防护机制,并提醒它使用了更新的 tokenizer,实际 token 消耗可能比 4.6 更高。整体来看,这是一版更稳、更强、也更适合真实工作流的 Claude 升级。

Claude Opus 4.7 发布!留给人类的时间,不多了

Anthropic 刚刚发布了 Claude Opus 4.7,并向所有用户和 API 开放访问,价格与 Opus 4.6 保持一致。文章开头把这次升级定性为一次面向真实工作流的强化,而不是单纯追求参数或噱头。它最核心的变化,是更适合高难度、长周期任务。相比旧版本,4.7 在处理复杂任务时更严谨,也更愿意先自检再输出结果。文章提到,这会让一些原本需要人工盯着的高强度编程任务,更适合直接交给它执行。

视觉能力也是这次更新的重要部分。新版本支持更高分辨率的图像输入,适合处理复杂截图、图表和信息抽取。与此同时,它对指令的执行更严格,这意味着旧版本可用的 prompt,在 4.7 上可能会出现新的行为,需要重新调优。文章还列出了多项 benchmark 结果,说明它在金融 Agent、代码编写、文档推理和长上下文等方向都比 4.6 更强。作者特别强调,它在 GDPval-AA 这类衡量经济价值知识工作的指标上达到了当前最优水平。

除了模型本身,这次发布还带来了新的控制和配套能力。Anthropic 增加了介于 high 和 max 之间的 xhigh 努力等级,让开发者能更细地控制推理强度。Claude Code 也把默认努力等级提高到了 xhigh。API 侧新增了 Task Budgets 公测,方便管理长任务中的 token 消耗。文章还提到 Claude Code 增加了 /ultrareview 代码审查功能,为开发者提供了更强的审查工具。

安全方面,Opus 4.7 使用了 Project Glasswing 下的新防护措施,并刻意压制了网络攻击能力。文章说明,如果是合法渗透测试或漏洞研究的安全人员,可以申请 Cyber Verification Program。最后,作者提醒这版模型使用了更新的 tokenizer,同样输入可能会消耗更多 token,尤其是在高努力等级的多轮 agent 场景下,实际成本需要先做测量再决定是否全量切换。整体来看,这是一版更强、更稳、也更偏向生产环境的 Claude 升级。

两个美国人看中国AI,看到了同一件事

这篇文章把两篇美国主流媒体的文章放在一起看:一篇是《纽约时报》记者在中国实地采访后的观察,另一篇是前美国国家安全顾问杰克·沙利文在《外交事务》上的长文。作者想说明的是,两者虽然出发点不同,但都得出了相近判断:中国 AI 发展的关键不只是模型本身,而是部署能力、制造业基础和供应链掌控

文章还强调,美国过去依赖芯片出口管制来遏制中国 AI 的思路,效果有限;而中国正在通过异地算力、低端芯片组合、模型蒸馏等方式绕开限制。作者因此认为,中美 AI 竞争的核心,已经从“谁的模型更强”转向“谁能更快把技术嵌入现实产业”。

最后,文章把讨论落到 AI 安全与治理上,指出中美两边都开始意识到:当技术足够强大时,竞争之外,还必须回答“如何不失控”这个问题。