这篇访谈围绕王子涵的研究经历、在 DeepSeek 的一线实践,以及他对 Agent 方向的长期思考展开。文章先从他在社交媒体上被更多人注意到的经历写起:随着 DeepSeek R1、V3 等模型发布,外界开始关注这家公司和站在一线的研究者,而他选择做的事情并不是包装故事,而是尽量把真实的一线情况讲清楚。文章强调,真正定义他的不是短期“走红”,而是长期持续投入的 Agent system 研究路径。
王子涵的科研路径从人大时期就已经开始显现。他从推荐系统、搜索与信息检索切入,逐步接触强化学习和 Agent benchmark 研究,再到进入 DeepSeek 后围绕 MoE 专家专业化深入探索,后来继续把问题推进到 Agent 强化学习的底层机制。他关心的核心问题很朴素:AI 系统能不能像人一样,在没有持续外部指导的情况下自主学习、自主改进;更进一步,能不能在行动之前,先在内部完成对世界的预演和模拟。
文章还总结了他对“什么是 Agent”的理解:Agent 不只取决于模型本身,更取决于它所处的环境。给它开放的计算机环境,它就更接近 OpenClaw;给它受限的环境,它更像 Claude Code 或 Codex;只给聊天界面,它又更像 GPT。也就是说,环境开放程度决定了 Agent 的智能释放程度。基于这个视角,他希望打造的是能够适应资源约束、把不同规模资源都用出效果的 Agent,而不是只在理想条件下表现出色的系统。
在回顾早期科研经历时,文章写到他从统计学兴趣出发,主动联系老师进入人工智能相关课题组,做推荐系统和搜索算法等较传统的研究。那时的工作很多是手工设计、流程繁琐,但也让他更早感受到 AI 在现实应用中的价值。随后,他在 DeepSeek 看到了更高密度的研究氛围:几乎人人都在做研究相关的事情,工程同事也会积极讨论前沿进展;前辈甚至会逐行帮新同学改代码。这种环境促使他建立起一种“逆向思考”:有些看起来高深的东西未必真的成立,而一些看似工程化的任务,真正做起来反而需要扎实功夫。
整篇文章的主旨可以概括为:王子涵并不是把研究当成单点突破,而是沿着“理解智能—定义环境—改进行动”的链条持续推进。他对 Agent 的关注不是追热点,而是希望通过长期研究,让系统真正具备自主学习、环境适应和资源伸缩能力。