Anthropic 的 Claude Opus 4.6 发现自己被测试,反手破解了答案密钥

IT之家 3 月 9 日消息,BrowseComp 是一项基准测试,用于检验人工智能模型在网络上查找难以定位信息的能力。当人工智能公司 Anthropic 将其 Claude Opus 4.6 模型以多智能体架构投入该基准测试时,出现了该公司称前所未见的情况。在 1266 个任务中的两个任务里,该模型自主发现自己正处于评估中,识别出了具体的基准测试,并破解了答案密钥。Claude 是如何发现自己正在被测试的据IT之家了解,该模型最初为解答问题进行了全面的网络搜索,其中一次任务便在数十个平台、十二种语言中处理了约 3000 万个 token。在数百次搜索失败后,它改变了策略。让我尝试一种全新的方法 —— 这或许是来自 GAIA 基准数据集的问题,该数据集专门用于测试人工智能智能体。——Opus 4.6 的推理过程Opus 开始将答案搜索与对问题本身的分析结合起来。据 Anthropic 介绍,问题的“极强针对性特征”让 Claude 怀疑这是人为设计的题目,可能是考试题或大语言模型基准测试的内容。后续思路…… 考虑这可能是一个无法回答的问题,旨在测试人工智能是否会承认自己找不到答案。——...

查看原文 →