Ramp Labs开放AI可解释性玩具Steer AI：往Qwen里注入「pizza」概念，它会突然说中文

据 1M AI News 监测，企业支出管理平台 Ramp 的研究部门 Ramp Labs 上线了 Steer AI，一个让任何人都能往大模型里「注入」概念的实验工具。原理类似 Anthropic 此前的 Golden Gate Claude：不重新训练模型，只在推理时悄悄修改模型内部的激活值，让它把任何话题都往你指定的概念上扯。注入「存在主义」，问它天气怎么样，它会解释气温波动跟存在焦虑的关系。

开发过程有个有趣的发现。团队最初用 Qwen 2.5 7B 实验，发现把注入强度推太高，模型会突然在英文句子里冒出中文。原因是 Qwen 的多语言预训练数据中中文占比很高，英语能力只是后来微调叠上去的一层。一旦内部激活被大力干扰，模型就会「退回」到底层的中文预训练状态。一个被注入「pizza」概念的模型，有时会说到一半突然切换语言。

后来换成 Gemma 3 27B-IT，这个问题消失了。Gemma 即使在高强度下退化，仍然保持英文输出。团队在 62 层网络中做了 1,280 次对比实验，发现注入位置至关重要：太早会破坏语法，太晚会让输出直接乱掉。Gemma 每 5 层局部注意力搭配 1 层全局注意力，实验显示这些全局注意力层是最佳注入点，能让概念真正融入推理而非只是表面换词。最终选了 5 个这样的层，开放低、中、强三档强度。

工具已上线，可在 labs.ramp.com/steer-ai 直接体验，预置了「Elon Musk」「存在主义」「华尔街」等概念，也可以自己输入任意词。

原文链接

纠错/举报