← 所有标签

# Computer Use

亲测 Codex Computer Use

这篇文章是作者对 Codex 新发布的 Computer Use 功能做的实测反馈。作者原本对这类能力抱有期待,认为既然出自 ChatGPT 团队,表现应该会比较强,但实际体验下来并不理想。文章先测试了让它通过视觉方式操控原生微信,结果它一开始连公众号入口都找不到,还尝试过用各种旁路方法去寻找文章链接,但都没有成功。

作者指出,这种 Computer Use 更像是基于纯视觉的操作,速度慢,而且在复杂桌面应用里很容易找错目标。比如本来应该点击窗口右上角的菜单,它却误点到了文章内部图片上的相似按钮,说明它对界面层级和语义理解还不够稳定。文章还提到,微信本身的加密和页面结构,也让它无法像预期那样直接通过数据库或网页搜索拿到内容。

随后作者又测试了让它自动操作网页,去回复一条推文,但结果同样不够好。它虽然能慢慢找到输入框位置,却在粘贴和触发输入事件上反复失败,最后连回复按钮都无法正常激活。作者因此认为,纯视觉式自动化在当前阶段仍然比较鸡肋,尤其在网页场景里,若能直接基于 DOM 操作,效率和成功率会高得多。

文章最后还提到一次普通任务就消耗了大量 token,体验并不划算。整体结论很直接:Codex 的 Computer Use 不是完全不能用,但在原生桌面和网页自动化里都还有明显短板,离“真正好用”还有距离。

OpenAI彻底重构Codex!长出独立鼠标,自己排班狂卷打工人

这篇文章介绍了 OpenAI 对 Codex 的一次大更新,重点是它从“编程 Agent”进一步变成了可以在后台持续工作的桌面级 AI 工具。作者强调,Codex 现在不仅能写代码,还能看屏幕、点鼠标、跑模拟器、修 Bug,并且可以和用户的前台工作并行进行。文章把这一能力概括为“长出独立鼠标”,意思是它拥有了一套不干扰人类操作的后台执行能力。

文章举了一个很具体的例子:用户让 Codex 在 Xcode 里运行一个井字棋 App,自主玩一局并修复发现的 bug。Codex 会自己打开 Xcode、启动模拟器、测试、发现异常、定位代码、修改 Swift 代码,再重新编译并回归验证,整个闭环几乎一气呵成。作者认为,这种能力让 AI Agent 从“会写代码”进化到了“会跑测试、会修问题、会自己完成工作流”。

除了电脑控制,文章还介绍了 Codex 的浏览器内联调能力。OpenAI 给它内置了浏览器和视觉上下文,让用户可以直接在渲染后的页面上标注问题,比如要求改标题、调字体、加 Logo、修图表越界,Codex 会在后台改代码并实时刷新页面。这种方式把前端调试从“看代码改代码”变成了“看页面点问题”,更接近设计审阅和可视化反馈。

文章也提到插件生态的大规模扩展:Codex 一口气接入了 90 多个插件,覆盖 Jira、CI/CD、文档、数据库、邮件、日历、知识库等常见工作流。它还能自己给自己排班,通过“心跳”机制定时醒来继续干活,并在多轮对话之间保留上下文。作者认为,这些能力让 Codex 不再只是单次交互工具,而更像一个能长期驻留、持续推进任务的“初级员工”。

最后,文章把这次更新放进 OpenAI 的更大战略里理解:它不是在给 Codex 单独加功能,而是在为一个未来的“超级 App”冷启动。Codex 的后台执行、多 Agent 并行、无人值守、插件接入和记忆能力,都被作者视为超级 App 的关键拼图。整体来看,这篇文章的核心观点是:OpenAI 正在把 Codex 做成一个能渗透整个开发工作流的通用 AI 工作台,而不只是一个写代码的助手。