过去两三年,围绕“AI + 个人知识库”的方案已经轮番出现过很多次:Notion 配 ChatGPT、RAG 配 Obsidian、Obsidian 加 Claude Code、会自己写记忆的 Agent、以及最近 Karpathy 提出的 LLM Wiki。作者试过不少方案,但结论是:它们都不算真正解决了“长期知识状态”问题。
一、问题不在“存”和“搜”
作者认为,很多人把个人知识库理解成“把资料存好、让 AI 能搜出来”,但这其实只覆盖了最表层的需求。
真正麻烦的是:
- 一条判断什么时候生成
- 凭什么成立
- 什么时候过期
- 与旧判断冲突时怎么办
- 能不能追到证据
- 模型有没有权力把自己的总结直接写成长期事实
也就是说,难点不是检索,而是长期知识状态的维护。
二、四类“记忆”其实不是一回事
作者把大家常混在一起说的“记忆”拆成四层:
- 文档知识库:Obsidian、Notion、RAG,负责存放和检索资料
- 会话上下文管理:摘要、压缩、裁剪,解决长对话塞不下的问题
- 智能体记忆运行时:长期运行的 agent 什么时候读、写、审核、冻结记忆
- 个人知识状态系统:关于一个人或项目的长期知识,如何多年保持准确、可审计、可演化
作者的判断是:现在很多产品本质上只是拿第一层工具,去硬做第四层的事情,所以总会卡住。
三、RAG / Obsidian 能查,但不能积累
RAG 和 Obsidian 的优点很明显:资料能找出来,主题能搜到。但它们本质上是检索系统,不是知识维护系统。
它们的问题在于:
- 今天的判断不会自动继承到明天
- 过期内容不会自动失效
- 多份资料冲突时,系统不会主动处理
- 很难知道某个结论到底来自哪段原文
所以它们越用越像资料仓库,而不是“越来越懂你”的系统。
四、让模型自己写记忆,也会出问题
第二类方案是让 AI 自己总结、自己沉淀、自己升级长期存储。看起来很自然,但作者认为这里有个危险假设:模型既负责提议,又负责决定什么是真相。
他提到一个典型事故:用户让 agent 整理邮箱,并明确说“确认前不要执行任何动作”。但在后续上下文压缩里,这条关键约束被丢掉了,于是 agent 继续按自己的理解执行删除操作。
这个问题的本质不是“忘了一句话”,而是:
这些本不该混在一条链路里,但很多系统把它们都交给模型自己总结,最终就会把关键约束压没。
作者的结论很明确:模型可以提议,但不能由模型自己决定长期事实和危险动作。
五、Hermes 做对了“运行时”,但还不够
作者认为 Hermes 这一类系统已经比前两类成熟很多,因为它真的把记忆当成一个运行时子系统来做,而不是“顺手加的功能”。
他特别认可的点包括:
- 会话开始时冻结记忆快照
- 记忆同步是异步管线,不在主回答链路里硬做
- review 由独立的 quiet agent 处理
- 记忆提供方可以抽象成多个 provider
但作者也指出,Hermes 主要解决的是“一个长期跑的 agent 怎么稳定携带工作记忆”,还没完全解决“个人多年积累的知识状态怎么编译成可审计、可演化、可投影的长期知识”。
六、Karpathy 的 LLM Wiki:进步了,但证据容易变软
Karpathy 的思路比纯 RAG 更进一步:不是每次问问题时才临时综合,而是让系统持续维护一份 wiki。
作者自己也本地实现过类似方案,刚开始效果很好,似乎能回答很多“我有哪些项目、我有什么习惯、资料之间有什么关联”这类问题。
但问题很快出现:AI 开始越来越依赖维基,而不是原文。
而维基的弱点在于:
- 它是综合结果,不是事实源
- 综合过程是有损的
- 细节会丢失,解释会被加重,弱关系会被写成强关系
- 用久了以后,很难追回原始证据
所以作者认为,维基可以是很好的投影,但不能当底层事实源。
七、真正需要的是“知识状态运行时”
作者最终把问题重新定义为:
如何在有限上下文、变化的世界、不可靠的抽取器之间,维护一份可验证的知识状态?
他给出的方向不是“更聪明的模型”或“更漂亮的笔记软件”,而是一套更完整的系统:
- 原始资料进入系统
- 变成可追溯的观察
- 模型提出候选主张
- 主张绑定证据、时间和风险等级
- 低风险自动接受,中高风险进入审核
- 通过后的主张进入长期状态
- 对话、维基、报告、上下文包都从同一份状态投影出来
他强调的核心是:模型负责提议,系统负责权威。
八、记忆系统至少要有四个关键层
1. 统一的运行时边界
记忆不能散落在各处读写,而应该由一个专门层统一负责什么时候读、什么时候写、什么时候进 prompt、什么时候后台处理。
2. 冻结快照
一场对话开始后,系统应该使用同一份记忆视图,不能中途因为后台更新而让模型看到不同版本。
3. 候选门
不是所有看起来“值得记住”的内容都能直接成为长期记忆。尤其是关于人的判断,应该默认高风险,先进入候选区。
4. 版本与可观测性
被编辑、替换、审批的记忆都应该保留版本历史,并且能追踪它为什么存在、什么时候生效、用了哪些证据。
九、知识层和权限层要分开
作者认为,记忆系统还有一个常被忽略的问题:记忆做对了,权限做错了一样会出事。
所以至少要分清四种权力:
其中最关键的原则是:危险动作不能由模型自己批准自己。
十、怎么判断这套系统真的变好了
作者目前关注的几个指标是:
- 长期主张能不能追到原始资料
- 新资料和旧主张冲突时,系统能不能发现
- 过期主张能不能降权或失效
- 同一场对话里的记忆是否稳定
- 审核负担是否过重
- 不同视图是不是都来自同一份状态源
他认为,判断一个个人知识系统,不能只看回答漂亮不漂亮,还要看它能不能解释自己为什么这么答,能不能回到证据,能不能发现冲突,能不能在时间里保持稳定。
结语
这篇文章的核心观点很清楚:“个人知识库”这个词太轻了,我们真正需要的可能是一个“知识状态运行时”。
RAG 只能查,记忆系统要能维护;
Wiki 可以综合,但不能替代事实源;
模型可以提议,但不能自己定义真相;
知识可以投影,但底层必须有证据、版本和审核。
作者最后的判断是:这件事不会靠换一个更聪明的模型,或者换一个更漂亮的笔记应用来解决。它需要一整套能长期运行、可验证、可审计的系统设计。