AI 开始打工了：最新“龙虾排行榜”，谁最会干活？ - AI资讯

过去两年，AI 圈讨论最多的一件事，其实很简单：哪个模型更聪明。谁的推理更强，谁的考试分数更高，谁又刷新了哪个榜单。但到了 2026 年，大家不太关心谁更聪明了，反而开始问一个更现实的问题：哪个模型更会干活？随着 OpenClaw 这类 Agent 框架开始爆火，越来越多开发者不再只是和 AI 聊天，而是让大模型真正接管任务。写代码、查资料、处理邮件、整理文件、调用 API，甚至自己拆解复杂流程，一步一步把事情做完。在开发者圈子里，这事还有个特别形象的说法：养龙虾。把模型接进 Agent 框架，就像往水箱里放一只龙虾，让它自己在里面跑任务、调工具、折腾工作流，看它到底能不能把活干明白。那到底哪款大模型，最适合拿来“养龙虾”？最近，OpenClaw创始人 Peter Steinberger 发布了一份名为PinchBench的基准测试榜单。一口气实测了 32 个主流大模型，从成功率、速度和成本三个维度做了完整对比。这也成了目前第一份专门针对 Agent 任务的，“龙...