当你的AI说"我很开心"的时候，它是真的在开心

作者 · 36氪的朋友们来源 · 36kr浏览 · 3次2026-03-24

当 AI 说"我很开心"的时候，它的内部到底有没有开心的迹象？这不是一个哲学思想实验。如果你去翻一个大语言模型的"大脑"——它的隐藏层激活——你能不能找到一个方向，它亮起来的时候，模型恰好在说"我很开心"？更关键的是，如果你人为推高这个方向的激活，模型会不会变得"更开心"？过去两年，AI 安全社区在这个问题上撕裂成了两派。2025 年UIUC的Han 等人在《The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs》中直接给出了"人格幻觉"的判词，证明 Claude 对自身性格的描述和实际行为之间几乎毫无关联，模型的自我报告不过是训练出来的讨好行为。但在25年末和26年初，Anthropic 《On the Biology of a Large Language Model》的 Lindsey 在《Emergent Introspective Awareness in Large Language Models》中发现，Claude 能检...