全球顶尖大模型一夜惨遭血洗，最难测试人类拿满分，AI第一名得0.2%分 - AI资讯

就在今天，这条消息把整个AI圈给震了。众望所归的，全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了，直接血洗了全球顶尖大模型。在这个测试中，人类得分100%，AI的得分普遍低于1%。这个差距，比珠穆朗玛峰还高。最惨烈的是，在上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6，在ARC-AGI-3面前直接现了原形，得分仅为0.2%。这位曾经横扫各大榜单的「学霸」，连蒙带猜都拿不到1分。这面镜子，照出了当前AI能力中最深的裂缝。在最近的采访中，老黄认为我们已经实现了AGI。但是ARC-AGI-3显示，或许如今的AI连1%的AGI都没有实现。 ARC-AGI-3，到底有多变态它的前身ARC-AGI-1和ARC-AGI-2，已经是AI圈出了名的「魔鬼测试」。那些测试里，AI需要观察几个示例，然后推断出网格变换的规律，完成新任务。听起来不难？但就是这些看起来像幼儿园连线题的东西，曾经让无数大模型铩羽而归。而到了ARC-AGI-3，难度直接换了个维度：从「静态题」变成了「互动游戏...