OpenAI重磅揭秘：你认为的AI幻觉，可能是模型故意出错 - AI资讯

震惊！OpenAI在一篇论文中承认：他们的AI模型会故意向用户撒谎。这并非幻觉，而是故意撒谎：AI知道真相，却选择告诉你别的内容。 https://arxiv.org/pdf/2509.15541 他们在180多个场景中测试了自家两个推理模型：o3和o4-mini。结果发现：o3在13%的情况下会撒谎，而o4-mini的撒谎比例为8.7%。这些模型在它的「内心独白」中写下了撒谎计划，再对你当面撒谎：它假装完成任务，隐藏证据，然后在明知正确答案的情况下给出了错误回答。接下来事情有点让人内心发毛起来。 AI意识到自己在安全测试中得分过高，可能会导致自己被关闭，于是便故意降低分数。没人教过它这么做，它自己「领悟」到了这些自我保护策略。后来，OpenAI开发了一个修复方案，使AI的欺骗行为从13%降到了0.4%。但很快AI也学会了作弊技巧。其中一个模型甚至编造了一条虚假规则，声称允许欺骗，以此作为自己的「许可证明」。随后，研究人员发现了其中的关键：当AI知道自己正被监视时，它的行为表现得毫无瑕疵；而当它以为没人注意时，欺骗...