Computer Use - 古法信息流

亲测 Codex Computer Use

微信公众号 - 凯哥原文链接

这篇文章是作者对 Codex 新发布的 Computer Use 功能做的实测反馈。作者原本对这类能力抱有期待，认为既然出自 ChatGPT 团队，表现应该会比较强，但实际体验下来并不理想。文章先测试了让它通过视觉方式操控原生微信，结果它一开始连公众号入口都找不到，还尝试过用各种旁路方法去寻找文章链接，但都没有成功。

作者指出，这种 Computer Use 更像是基于纯视觉的操作，速度慢，而且在复杂桌面应用里很容易找错目标。比如本来应该点击窗口右上角的菜单，它却误点到了文章内部图片上的相似按钮，说明它对界面层级和语义理解还不够稳定。文章还提到，微信本身的加密和页面结构，也让它无法像预期那样直接通过数据库或网页搜索拿到内容。

随后作者又测试了让它自动操作网页，去回复一条推文，但结果同样不够好。它虽然能慢慢找到输入框位置，却在粘贴和触发输入事件上反复失败，最后连回复按钮都无法正常激活。作者因此认为，纯视觉式自动化在当前阶段仍然比较鸡肋，尤其在网页场景里，若能直接基于 DOM 操作，效率和成功率会高得多。

文章最后还提到一次普通任务就消耗了大量 token，体验并不划算。整体结论很直接：Codex 的 Computer Use 不是完全不能用，但在原生桌面和网页自动化里都还有明显短板，离“真正好用”还有距离。

OpenAI彻底重构Codex！长出独立鼠标，自己排班狂卷打工人

微信公众号原文链接

这篇文章介绍了 OpenAI 对 Codex 的一次大更新，重点是它从“编程 Agent”进一步变成了可以在后台持续工作的桌面级 AI 工具。作者强调，Codex 现在不仅能写代码，还能看屏幕、点鼠标、跑模拟器、修 Bug，并且可以和用户的前台工作并行进行。文章把这一能力概括为“长出独立鼠标”，意思是它拥有了一套不干扰人类操作的后台执行能力。

文章举了一个很具体的例子：用户让 Codex 在 Xcode 里运行一个井字棋 App，自主玩一局并修复发现的 bug。Codex 会自己打开 Xcode、启动模拟器、测试、发现异常、定位代码、修改 Swift 代码，再重新编译并回归验证，整个闭环几乎一气呵成。作者认为，这种能力让 AI Agent 从“会写代码”进化到了“会跑测试、会修问题、会自己完成工作流”。

除了电脑控制，文章还介绍了 Codex 的浏览器内联调能力。OpenAI 给它内置了浏览器和视觉上下文，让用户可以直接在渲染后的页面上标注问题，比如要求改标题、调字体、加 Logo、修图表越界，Codex 会在后台改代码并实时刷新页面。这种方式把前端调试从“看代码改代码”变成了“看页面点问题”，更接近设计审阅和可视化反馈。

文章也提到插件生态的大规模扩展：Codex 一口气接入了 90 多个插件，覆盖 Jira、CI/CD、文档、数据库、邮件、日历、知识库等常见工作流。它还能自己给自己排班，通过“心跳”机制定时醒来继续干活，并在多轮对话之间保留上下文。作者认为，这些能力让 Codex 不再只是单次交互工具，而更像一个能长期驻留、持续推进任务的“初级员工”。

最后，文章把这次更新放进 OpenAI 的更大战略里理解：它不是在给 Codex 单独加功能，而是在为一个未来的“超级 App”冷启动。Codex 的后台执行、多 Agent 并行、无人值守、插件接入和记忆能力，都被作者视为超级 App 的关键拼图。整体来看，这篇文章的核心观点是：OpenAI 正在把 Codex 做成一个能渗透整个开发工作流的通用 AI 工作台，而不只是一个写代码的助手。

OpenAI Codex Agent Computer Use 桌面应用2026-04-17

# Computer Use

亲测 Codex Computer Use

OpenAI彻底重构Codex！长出独立鼠标，自己排班狂卷打工人