这篇文章是作者对 Codex 新发布的 Computer Use 功能做的实测反馈。作者原本对这类能力抱有期待,认为既然出自 ChatGPT 团队,表现应该会比较强,但实际体验下来并不理想。文章先测试了让它通过视觉方式操控原生微信,结果它一开始连公众号入口都找不到,还尝试过用各种旁路方法去寻找文章链接,但都没有成功。
作者指出,这种 Computer Use 更像是基于纯视觉的操作,速度慢,而且在复杂桌面应用里很容易找错目标。比如本来应该点击窗口右上角的菜单,它却误点到了文章内部图片上的相似按钮,说明它对界面层级和语义理解还不够稳定。文章还提到,微信本身的加密和页面结构,也让它无法像预期那样直接通过数据库或网页搜索拿到内容。
随后作者又测试了让它自动操作网页,去回复一条推文,但结果同样不够好。它虽然能慢慢找到输入框位置,却在粘贴和触发输入事件上反复失败,最后连回复按钮都无法正常激活。作者因此认为,纯视觉式自动化在当前阶段仍然比较鸡肋,尤其在网页场景里,若能直接基于 DOM 操作,效率和成功率会高得多。
文章最后还提到一次普通任务就消耗了大量 token,体验并不划算。整体结论很直接:Codex 的 Computer Use 不是完全不能用,但在原生桌面和网页自动化里都还有明显短板,离“真正好用”还有距离。