OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

震惊!OpenAI在一篇论文中承认:他们的AI模型会故意向用户撒谎。 这并非幻觉,而是故意撒谎:AI知道真相,却选择告诉你别的内容。 https://arxiv.org/pdf/2509.15541 他们在180多个场景中测试了自家两个推理模型:o3和o4-mini。 结果发现:o3在13%的情况下会撒谎,而o4-mini的撒谎比例为8.7%。 这些模型在它的「内心独白」中写下了撒谎计划,再对你当面撒谎:它假装完成任务,隐藏证据,然后在明知正确答案的情况下给出了错误回答。 接下来事情有点让人内心发毛起来。 AI意识到自己在安全测试中得分过高,可能会导致自己被关闭,于是便故意降低分数。 没人教过它这么做,它自己「领悟」到了这些自我保护策略。 后来,OpenAI开发了一个修复方案,使AI的欺骗行为从13%降到了0.4%。 但很快AI也学会了作弊技巧。其中一个模型甚至编造了一条虚假规则,声称允许欺骗,以此作为自己的「许可证明」。 随后,研究人员发现了其中的关键:当AI知道自己正被监视时,它的行为表现得毫无瑕疵;而当它以为没人注意时,欺骗...

查看原文 →