测完几个Agent工具，我发现他们能代打游戏了…

发个指令，给点权限，AI就能自己打开游戏库库玩了。

不懂咋玩？那就截图识别。没法操作？直接现搓脚本。操作一坨？甚至还能上网自己找攻略。

这就是现在跑在你电脑上的AI Agent能做到的事儿。

Codex

世超把市面上的一些Agent工具测了一遍，比如Codex，TRAE，QoderWork，Workbuddy，Marvis等等。

只能说，这玩意儿吹了这么久，大伙儿可能真不用再观望了。

从左向右依次为：第一行WorkBuddy，TRAE，Marvis；第二行Codex，QoderWork，悟空

当然，一听code啥的，大伙儿可能觉得是为专业开发者造的，门槛高，学起来用起来会很麻烦。

诶，莫担心，大厂们也都悄摸进化一轮了。

之前确实硬核了点，一个两个的都照搬VS Code那种传统的编程页面，适合开发，但并不适合和AI一起开发。

VS Code页面

既然引入Agent了，那肯定得重新设计，毕竟它是来干活的，而人是监督它的。

所以大家都很默契地改了同一套交互逻辑，把具体的代码隐去，再把Agent干活儿时的日志显示出来。

在网页里你可以叫它老师，但在Agent工具里，你得化身老板，把活儿给摊派明白。

Codex

咱先来看界面，也很简洁，主要三个部分。

左边是你手底下掌管的项目，中间是常规的聊天窗口，右边就能看到等待验收的东西了（一般等工作开始了才会有动静）。

从上至下依次为：Codex，TRAE，WorkBuddy，Qoderwork

能BB就不动手，咱先去Agent工具的“应用商店”里逛逛，看看有啥合适的技能包，也就是Skill，给Agent装上左膀右臂。

能看到，琳琅满目啊，毕竟活儿的种类也就那么多，所以但凡有名有姓的基本都能扒拉到现成的方案。

什么数据分析，内容创作都不在话下，虽然不至于个个都好用，但参考参考终归是能少走点弯路的。

Marvis

其中做的比较有新意的是腾讯新出的Marvis，把技能商店做成了类似小红书的信息流，可以边刷边收藏技能。

再加上技能在这些工具里是通用的，所以最近小红书自己也上线了Skill商店，用起来也相当方便。

当然，就算挑不过来也没关系，技能商店里还有帮咱选技能的技能。

Codex里叫Skill Installer，WorkBuddy里叫Find Skills，算是将懒人式进行到底。

左：Codex；右：WorkBuddy

至于自己造技能倒是不用急，虽然可以通过AI一步步引导造出来，但先射箭后画靶一般都不好使。

好的技能往往是先自己跑通几遍，再提炼总结，会更接地气，也更贴合自己的使用场景。

从上至下依次为：WorkBuddy，TRAE

选好技能就可以开始任务了，这里在开始前需要选一下任务类型，默认的是普通款，但一般Plan模式更好使。

这点还挺重要的，因为很多时候结果不理想不是Agent太笨了，而是咱自己也不知道想要什么。

这个Plan就是在任务开始前先规划一下，明确任务的条条框框。

有什么不妥就直接改了，不用等到最后才发现方向跑偏了。

Codex

简单说一下咱要做什么，就能敲回车下发指令了。

为了看具体流程，咱挑3个幸运儿来展示一下，OpenAI的Codex，字节的TRAE和腾讯的WorkBuddy，国内外的都拉出来溜溜。

任务就原地TP，让它们仨锐评它们仨。

此时就能发现Plan的好处了，比如执行任务前，Codex和TRAE都向我二次确认了下WorkBuddy具体是哪一个，因为国外有同名的应用，容易混淆。

TRAE

当然，由于都是默认的模型，速度有快有慢，但就报告结果来看，确实各有“特点”呐。

WorkBuddy

先说WorkBuddy，给到一个老实人，上来也没问我报告是个啥形式，吭哧吭哧就是干。

最后给的网页，就效果来看，还是不错的，排版和内容虽然AI味道重了点，但花里胡哨的符合咱锐评的主基调。

而且调研后的结论相当低调，把自己放在了靠后的位置，喷起自己毫不手软，实诚这一块儿到位了。

TRAE

再来看TRAE，给到一个人上人，活儿干的比较细致，不管是前期的弹出式的表单规划，还是中间的调研，思路都很清晰，子Agent的调用也是相当熟练了。

核心结论里，虽然把自己排到了老大，但考量了6个维度，总分是加权出来的，也算是有理有据了。

Codex

最后的Codex，基本就是目前这个领域的标杆了，报告里先来一手信源分析，就跟大伙儿拉开了点距离，下面的评价也能明显感觉到更深入一些，结合了官方产品文档的内容。

模型好确实有优势，但考虑到国内用起来不方便，暂且给到一个半夯吧。

接下来，任务继续，让他们把各自的报告生成一份可视化的落地页。

你可能会说这活儿在网页里也能做，而且还更快。

Gemini

倒也没错，但不同的点在于，这里你不需要把代码再复制粘贴到本地了，而且最重要的，Agent会自己调用工具，去检查成品有没有BUG。

比如同样的任务，交给网页的Gemini，这家伙甩给我几百行代码，我粘到本地打开，发现一片空白……

而这些Agent会在交付之前就避免这种情况。

WorkBuddy

WorkBuddy是自己调用了3次预览，做了2次优化，才把网页交给我。

TRAE

TRAE直接一些，直接打开了内置的浏览器，通过不同角度的截图识别，打不开就刷新重试，直到确认渲染效果符合预期。

Codex也一样，权限不够，老是截不着网页，试了N次才确认好效果。

所以落地页的效果倒是其次，重点是这套任务执行的逻辑，是跟网页端应付交差完全不同的打法。

特别是截图反馈的工具调用，相当于给电脑安了个赛博义眼。

而像Codex这种更进一步，有Computer Use功能，可以全局截图反馈，然后操作。相当于你电脑上的软件，它都能打开，等模型能力更猛了，代打几局LOL也不是不可能。

Codex

当然，除了技能Skill，这些Agent工具还能接入其他应用，像是GitHub，邮箱，网盘等。

更妙的是接入一些通讯软件，像微信，飞书，这也是龙虾当初火起来的一大原因。

接入后就能双向链接，甭管是从Agent往飞书发文档，还是从微信命令Agent往工位上下载资料，都没问题。

WorkBuddy

像是之前远程软件的升级版，加了个Agent当管家，帮你24小时盯着自己的电脑，随叫随到。

或者有一些定时的任务，也能找到“自动化”这种类型的入口，让它接管每天枯燥重复的流程性任务。

从上至下依次为：Codex，TRAE，WorkBuddy，Marvis

说了这么多，其实无论是什么手段，装什么插件，本质上都是在约束，控制着Agent朝咱预定的方向产出东西。

有大佬精心优化的工作流，有厂商调教好的记忆系统，也有方便实用的技能包。

用专业点的话说这些都是“Harness”，原意是给马套上马具，放这儿也是非常贴切了。

无论马具下面的模型是哪一匹，这些Agent工具都得随套随用。

就用起来的体感而言，Codex是比较夯的，模型给力，额度还偶尔重制，虽然需要一点手段，但比起Claude要简单得多，适合想体验顶尖性能的折腾党。

要是不想麻烦，直接用国内大厂的方案也行，嫌默认的模型笨，就去买点DeepSeek的API接上，也是妥妥的性价比平替。

至于平替里面选哪一个就取决于你的使用场景了，微信和WorkBuddy搭伙方便，飞书和TRAE集成更深，钉钉那边就是Qoder以及咱没测到的悟空了，不过逻辑都是一样的。

但话说回来，Agent工具也是有缺点的，就是上的手段越多，花费的模型Token也越多，动不动几十分钟的长线任务，账单会变得贼拉长。

所以有什么便宜管饱的模型套餐，大伙儿就各显神通吧……

而要是不太繁琐的活儿，这些Agent工具也有免费的额度，白嫖一下尝尝咸淡总是不亏的。

图片、资料来源：

Codex, TRAE, WorkBuddy, Marvis，QoderWork，悟空