离开DeepSeek - 古法信息流

这篇访谈围绕王子涵的研究经历、在 DeepSeek 的一线实践，以及他对 Agent 方向的长期思考展开。文章先从他在社交媒体上被更多人注意到的经历写起：随着 DeepSeek R1、V3 等模型发布，外界开始关注这家公司和站在一线的研究者，而他选择做的事情并不是包装故事，而是尽量把真实的一线情况讲清楚。文章强调，真正定义他的不是短期“走红”，而是长期持续投入的 Agent system 研究路径。

王子涵的科研路径从人大时期就已经开始显现。他从推荐系统、搜索与信息检索切入，逐步接触强化学习和 Agent benchmark 研究，再到进入 DeepSeek 后围绕 MoE 专家专业化深入探索，后来继续把问题推进到 Agent 强化学习的底层机制。他关心的核心问题很朴素：AI 系统能不能像人一样，在没有持续外部指导的情况下自主学习、自主改进；更进一步，能不能在行动之前，先在内部完成对世界的预演和模拟。

文章还总结了他对“什么是 Agent”的理解：Agent 不只取决于模型本身，更取决于它所处的环境。给它开放的计算机环境，它就更接近 OpenClaw；给它受限的环境，它更像 Claude Code 或 Codex；只给聊天界面，它又更像 GPT。也就是说，环境开放程度决定了 Agent 的智能释放程度。基于这个视角，他希望打造的是能够适应资源约束、把不同规模资源都用出效果的 Agent，而不是只在理想条件下表现出色的系统。

在回顾早期科研经历时，文章写到他从统计学兴趣出发，主动联系老师进入人工智能相关课题组，做推荐系统和搜索算法等较传统的研究。那时的工作很多是手工设计、流程繁琐，但也让他更早感受到 AI 在现实应用中的价值。随后，他在 DeepSeek 看到了更高密度的研究氛围：几乎人人都在做研究相关的事情，工程同事也会积极讨论前沿进展；前辈甚至会逐行帮新同学改代码。这种环境促使他建立起一种“逆向思考”：有些看起来高深的东西未必真的成立，而一些看似工程化的任务，真正做起来反而需要扎实功夫。

整篇文章的主旨可以概括为：王子涵并不是把研究当成单点突破，而是沿着“理解智能—定义环境—改进行动”的链条持续推进。他对 Agent 的关注不是追热点，而是希望通过长期研究，让系统真正具备自主学习、环境适应和资源伸缩能力。