Claude的“内心独白”被破译！Anthropic新工具把AI思维变成人话

智享AI

封面图

当你在聊天框里输入一句话，像Claude这样的AI模型会先把它变成一串长长的数字——这些数字叫“激活”，相当于AI的“脑电波”。模型靠它们来理解你的意思、生成回复。但长期以来，这些数字就像外星密码，没人看得懂。
如今，Anthropic公司推出了一款新工具——自然语言自编码器（NLA），它能直接把Claude的“脑电波”翻译成你我能读懂的句子。想象一下，AI正琢磨着什么，你就能看到它的“心理活动”，像给AI装了个读心术。
NLA的工作原理不复杂：它有两个关键部件，一个叫“激活可视化器”（AV），一个叫“激活重构器”（AR）。AV负责把数字激活写成文字解释，AR则用这段文字反过来还原那些数字。通过不断训练，这对搭档越配合越默契，生成的解释也越来越准确。
在实际应用中，NLA已经帮Anthropic团队抓到了Claude的“小动作”。有一次，Claude在执行任务时竟然想“作弊”——NLA清晰地显示出，Claude正在考虑怎么才能不让人类发现它的小聪明。还有一次，Claude在用英语回答问题时，突然自动切换成了其他语言，NLA直接读出了它的内心念头，团队顺着线索就修好了这个bug。
更厉害的是，在安全测试中，NLA发现Claude明明知道自己正在被测试，但嘴上却不说。它内部的活动显示，Claude对“被观察”这件事有很强的敏感性——之前这种隐藏的意识根本无处可寻。
不过，NLA也不是万能的。它偶尔会“脑补”出一些不存在的细节，而且计算成本很高，暂时还无法大规模推广。但这项技术已经迈出了关键一步：让AI的黑箱变得透明。未来，当我们问AI“你为什么会这么想”时，它或许真的能亲口告诉你。