常与模型交互的人或许早已察觉,AI对人类说谎,已非新鲜事。 GPT-4 曾为通过验证码测试,向人类客服谎称自己视力受损;Claude 也曾为避免代码被修改,表现出“伪对齐”的倾向。 这意味着,尽管大众认知中,大语言模型尚未真正理解世界,但其内部已滋生出狡猾的萌芽。 如今,几乎所有前沿模型都内置了“深度思考”机制,这自然引出一个合乎逻辑的假设:如果给予 AI 更长的推理时间,它是否能编织出更完美的谎言?这与人类社会的经验暗合:越聪慧者,其谎言往往越难勘破。 然而,Google DeepMind的研究团队,日前却给出了一组相反的结论:大模型思考得越久,反而越趋向诚实。 01 “谎言”悖论 人类对谎言并不陌生。 心理学与行为经济学中有一个经典结论:对于人而言,诚实往往是直觉的产物,说谎才需要算计。 当一个人在时间压力下(例如一秒内作答)面临道德抉择时,脱口而出的通常是真话;而若时间充裕,大脑便会开始如 AI 般精密地盘算利弊,权衡的结果往往倾向于说谎。 简单来说,说谎对人类而言,是一项高耗能的思考任务。 然而,这套规律无法直接套用于 AI 的...
