全球顶尖大模型一夜惨遭血洗,最难测试人类拿满分,AI第一名得0.2%分

就在今天,这条消息把整个AI圈给震了。 众望所归的,全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了,直接血洗了全球顶尖大模型。 在这个测试中,人类得分100%,AI的得分普遍低于1%。 这个差距,比珠穆朗玛峰还高。 最惨烈的是,在上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接现了原形,得分仅为0.2%。 这位曾经横扫各大榜单的「学霸」,连蒙带猜都拿不到1分。 这面镜子,照出了当前AI能力中最深的裂缝。 在最近的采访中,老黄认为我们已经实现了AGI。但是ARC-AGI-3显示,或许如今的AI连1%的AGI都没有实现。 ARC-AGI-3,到底有多变态 它的前身ARC-AGI-1和ARC-AGI-2,已经是AI圈出了名的「魔鬼测试」。 那些测试里,AI需要观察几个示例,然后推断出网格变换的规律,完成新任务。 听起来不难?但就是这些看起来像幼儿园连线题的东西,曾经让无数大模型铩羽而归。 而到了ARC-AGI-3,难度直接换了个维度:从「静态题」变成了「互动游戏...

查看原文 →