AI 开始打工了:最新“龙虾排行榜”,谁最会干活?

过去两年,AI 圈讨论最多的一件事,其实很简单:哪个模型更聪明。 谁的推理更强,谁的考试分数更高,谁又刷新了哪个榜单。 但到了 2026 年,大家不太关心谁更聪明了,反而开始问一个更现实的问题:哪个模型更会干活? 随着 OpenClaw 这类 Agent 框架开始爆火,越来越多开发者不再只是和 AI 聊天,而是让大模型真正接管任务。 写代码、查资料、处理邮件、整理文件、调用 API,甚至自己拆解复杂流程,一步一步把事情做完。 在开发者圈子里,这事还有个特别形象的说法:养龙虾。 把模型接进 Agent 框架,就像往水箱里放一只龙虾,让它自己在里面跑任务、调工具、折腾工作流,看它到底能不能把活干明白。 那到底哪款大模型,最适合拿来“养龙虾”? 最近,OpenClaw创始人 Peter Steinberger 发布了一份名为PinchBench的基准测试榜单。 一口气实测了 32 个主流大模型,从成功率、速度和成本三个维度做了完整对比。 这也成了目前第一份专门针对 Agent 任务的,“龙...

查看原文 →