2026-04-25

共 4 篇

AI出题法

这篇文章讲的是一种很实用的 AI 学习方式:不要只问 AI“这是什么”,而是让它给你出题,逼你先理解,再命名。作者借用 Anthropic 研究员 Amanda Askell 的提示词方法,强调通过故事、延迟命名和反向费曼式训练,来加深对陌生概念的理解。

核心观点

1. 不要急着要定义

作者认为,很多人使用 AI 时,第一反应是直接索要定义或标准答案。但真正有效的学习,不是快速拿到结论,而是让自己先进入理解过程。定义只是压缩过的标签,容易让人停留在表面。

2. 让 AI 先讲故事

文章提出一个很有意思的训练方式:
  • 先找一个本科生不太懂、研究生才懂的小众概念;
  • 让 AI 用三段式故事把它讲出来;
  • 故事里不能直接说出概念名称;
  • 最后再揭晓名称,并反过来对照故事里的每个要素。

这种方法的关键,是把抽象概念重新变成可感知的情境。

3. “延迟命名”能逼出深度理解

作者认为,标签往往是思考的终点。真正有用的是在命名之前,先理解一件事在现实中如何运作。等你先明白了逻辑,再知道它叫什么,理解会更牢固。

4. 高质量问题比标准答案更重要

文中还提到,聪明人的关键能力,不是复述别人给的答案,而是会提出足够具体、足够偏离常规的问题。也就是说,AI 时代的真正竞争力,越来越体现在“会不会出题”。

5. 理解一件事,最好能把它变回故事

文章最后强调,真正理解某个概念,不是会背定义,而是能把它还原成一个有冲突、有取舍、有过程的故事。作者认为这比死记硬背定义更接近真实理解。

可直接使用的提示词思路

文章给了一个可直接套用的模板,大意是:

我想搞懂 [X],但你别直接告诉我定义。先找一个与 [X] 相近但更冷门的原理,用三段故事讲清楚,故事里不能出现概念名;讲完后先别揭晓,先问我它讲的是什么;最后再告诉我 [X] 叫什么,并逐条对照故事和概念。

结论

这篇文章的重点不是某个具体 AI 技巧,而是一种更高阶的学习观:聪明人用 AI,不是为了更快拿答案,而是为了训练自己的思考能力。AI 最适合做的,不是替你思考,而是帮你设计思考的难度。

人有时候需要逼自己一下

这篇文章的核心意思是:人不能长期待在舒适区里。作者认为,很多人的“躺平”与“内卷”,本质上都是因为缺少行动和思考,遇到环境变化时才会被动转型、四处找路。

文章借作者早年做网站、考证、做公众号和翻译历史书的经历说明:真正的兴趣不是空想,而是需要被行动逼出来。很多事在开始前看起来很难,但只要愿意迈出第一步,后面就会越做越顺。

作者还强调,职业、学历和所谓“旱涝保收”并不能保证未来,关键是持续学习、独立判断和行动能力。与其停留在“独立思考”的口头阶段,不如先动手实践,在过程中不断调整。

文章最后想传达的是:比起沉浸在焦虑和抱怨里,不如把注意力放回自己,主动尝试、主动改变,给自己一点压力,反而更容易走出真正的路。

微信文章2026-04-25

弹性预训练

这篇文章介绍了 Google 提出的 Decoupled DiLoCo:一种面向超大规模分布式预训练的弹性训练框架,核心目标是在硬件频繁故障、跨地域异构资源、带宽受限的条件下,仍然保持训练可持续推进,而不依赖所有设备严格同步。

文章先解释了传统 SPMD 数据并行的瓶颈:当集群规模扩大到数十万、乃至数百万块芯片时,即便单卡平均故障率不高,整体集群也会因为“规模效应”变得几乎持续在处理故障、重配置和等待。论文给出的模拟表明,在极大规模下,即便采用弹性机制,传统方案的有效吞吐率也会显著下降,大量时间消耗在同步等待和重配上,而不是有效计算。

Decoupled DiLoCo 的思路是把训练系统拆成多个相互独立的学习器(Learner),每个学习器可以自行训练,不需要等其他节点完全对齐;与此同时,引入一个运行在更稳定 CPU 资源上的同步器(Syncer),周期性收集各学习器的更新并做参数合并。关键设计包括:

  • 最小法定数(Minimum Quorum):不必等待全部学习器,只要达到一定数量即可同步。
  • 自适应宽限窗口(Adaptive Grace Window):在达到法定数后,短暂等待更多学习器赶上,以提升每轮合并质量。
  • 按 token 加权的合并机制:避免不同速度的学习器在合并中贡献失衡。
  • 平衡张量分片(Balanced Tensor Fragmentation):把参数拆成大小接近的碎片进行传输,平滑通信压力。

文章进一步展示了实验结果:在极高故障率、超大规模集群下,这种框架能够把有效吞吐率维持在较高水平;在模型质量方面,它在大参数稠密模型和多种文本/视觉基准上的表现,也能与传统数据并行训练保持接近,说明容错能力的提升并没有明显牺牲最终效果。对于混用不同代际芯片的场景,这套方法也能通过异步和宽限窗口机制保持稳定训练。

一个很重要的延伸价值,是它让“捡漏算力”成为可能:临时可用的机器、跨地区零散资源、不同时间段的闲置算力,都可以被纳入训练,而不必像传统数据并行那样为了接入新节点付出高昂同步代价。文章认为,这种“可用性优先”的训练范式,正在从研究思路变成下一代大规模模型基础设施的现实需求。

离开DeepSeek

这篇访谈围绕王子涵的研究经历、在 DeepSeek 的一线实践,以及他对 Agent 方向的长期思考展开。文章先从他在社交媒体上被更多人注意到的经历写起:随着 DeepSeek R1、V3 等模型发布,外界开始关注这家公司和站在一线的研究者,而他选择做的事情并不是包装故事,而是尽量把真实的一线情况讲清楚。文章强调,真正定义他的不是短期“走红”,而是长期持续投入的 Agent system 研究路径。

王子涵的科研路径从人大时期就已经开始显现。他从推荐系统、搜索与信息检索切入,逐步接触强化学习和 Agent benchmark 研究,再到进入 DeepSeek 后围绕 MoE 专家专业化深入探索,后来继续把问题推进到 Agent 强化学习的底层机制。他关心的核心问题很朴素:AI 系统能不能像人一样,在没有持续外部指导的情况下自主学习、自主改进;更进一步,能不能在行动之前,先在内部完成对世界的预演和模拟。

文章还总结了他对“什么是 Agent”的理解:Agent 不只取决于模型本身,更取决于它所处的环境。给它开放的计算机环境,它就更接近 OpenClaw;给它受限的环境,它更像 Claude Code 或 Codex;只给聊天界面,它又更像 GPT。也就是说,环境开放程度决定了 Agent 的智能释放程度。基于这个视角,他希望打造的是能够适应资源约束、把不同规模资源都用出效果的 Agent,而不是只在理想条件下表现出色的系统。

在回顾早期科研经历时,文章写到他从统计学兴趣出发,主动联系老师进入人工智能相关课题组,做推荐系统和搜索算法等较传统的研究。那时的工作很多是手工设计、流程繁琐,但也让他更早感受到 AI 在现实应用中的价值。随后,他在 DeepSeek 看到了更高密度的研究氛围:几乎人人都在做研究相关的事情,工程同事也会积极讨论前沿进展;前辈甚至会逐行帮新同学改代码。这种环境促使他建立起一种“逆向思考”:有些看起来高深的东西未必真的成立,而一些看似工程化的任务,真正做起来反而需要扎实功夫。

整篇文章的主旨可以概括为:王子涵并不是把研究当成单点突破,而是沿着“理解智能—定义环境—改进行动”的链条持续推进。他对 Agent 的关注不是追热点,而是希望通过长期研究,让系统真正具备自主学习、环境适应和资源伸缩能力。