“龙虾”热潮正持续升温。周一刚开工,腾讯旗下的Qclaw(龙虾)开启内测,字节跳动的ArkClaw(龙虾)也已正式上线火山引擎平台,而,阿里云则在更早推出了同类产品 CoPaw。与此同时,工信部迅速发布相关公告,对该领域存在的安全风险作出预警。 对于普通用户而言,这场突如其来的技术热潮,既是一次接触前沿AI应用的难得机遇,也如同一片难以看清的迷雾,让人难以判断背后的价值与风险。 所幸,在行业喧嚣的当下,由Kilo.ai开发的开源基准测试工具PinchBench及时发布,为所有关注这一领域的用户,提供了一个极具价值的理性判断锚点: 官网:https://pinchbench.com/ GitHub项目地址:https://github.com/pinchbench/skill 01 基准测试:如何给AI智能体打分? 事实上,OpenClaw已经是一个发布了两个月的产品,在它还叫做ClawdBot的时候就已经引发过技术社区的疯狂讨论。 如今,它又引发了一个有趣的现象:先行者已经对它去魅,试图通过阐述其能力边界来呼吁理性思考;后来者仍然十分狂热,哪怕尚未...
