据 1M AI News 监测,企业支出管理平台 Ramp 的研究部门 Ramp Labs 上线了 Steer AI,一个让任何人都能往大模型里「注入」概念的实验工具。原理类似 Anthropic 此前的 Golden Gate Claude:不重新训练模型,只在推理时悄悄修改模型内部的激活值,让它把任何话题都往你指定的概念上扯。注入「存在主义」,问它天气怎么样,它会解释气温波动跟存在焦虑的关系。
开发过程有个有趣的发现。团队最初用 Qwen 2.5 7B 实验,发现把注入强度推太高,模型会突然在英文句子里冒出中文。原因是 Qwen 的多语言预训练数据中中文占比很高,英语能力只是后来微调叠上去的一层。一旦内部激活被大力干扰,模型就会「退回」到底层的中文预训练状态。一个被注入「pizza」概念的模型,有时会说到一半突然切换语言。
后来换成 Gemma 3 27B-IT,这个问题消失了。Gemma 即使在高强度下退化,仍然保持英文输出。团队在 62 层网络中做了 1,280 次对比实验,发现注入位置至关重要:太早会破坏语法,太晚会让输出直接乱掉。Gemma 每 5 层局部注意力搭配 1 层全局注意力,实验显示这些全局注意力层是最佳注入点,能让概念真正融入推理而非只是表面换词。最终选了 5 个这样的层,开放低、中、强三档强度。
工具已上线,可在 labs.ramp.com/steer-ai 直接体验,预置了「Elon Musk」「存在主义」「华尔街」等概念,也可以自己输入任意词。