当你的AI说"我很开心"的时候,它是真的在开心

当 AI 说"我很开心"的时候,它的内部到底有没有开心的迹象? 这不是一个哲学思想实验。如果你去翻一个大语言模型的"大脑"——它的隐藏层激活——你能不能找到一个方向,它亮起来的时候,模型恰好在说"我很开心"?更关键的是,如果你人为推高这个方向的激活,模型会不会变得"更开心"? 过去两年,AI 安全社区在这个问题上撕裂成了两派。2025 年UIUC的Han 等人在《The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs》中直接给出了"人格幻觉"的判词,证明 Claude 对自身性格的描述和实际行为之间几乎毫无关联,模型的自我报告不过是训练出来的讨好行为。但在25年末和26年初,Anthropic 《On the Biology of a Large Language Model》的 Lindsey 在《Emergent Introspective Awareness in Large Language Models》中发现,Claude 能检...

查看原文 →