header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

仅710万参数的「记忆压缩器」:STILL毫秒内8倍压缩KV缓存,迈向无限上下文

1M AI News 监测,AI 模型推理平台 Baseten 的模型开发团队发布 STILL,一种用单次前向传播将 LLM 的 KV 缓存(模型推理时存储的上下文信息)压缩 8 倍的方法。压缩 8K token 上下文仅需毫秒,抽取式问答准确率保留 85% 以上。此前的压缩方法质量不差,但每段新上下文都要做独立优化:MIT 的 Attention Matching 需秒到分钟,斯坦福的 Cartridges 需分钟到小时。STILL 的思路类似稀疏自编码器(SAE)对字典学习的摊销:不再为每段上下文单独优化,而是学一个固定编码器一次前向传播搞定,速度快了几个数量级。

架构是一个 Perceiver 瓶颈网络,在冻结 LLM 的每一层独立运作。一组可学习的查询向量通过交叉注意力「询问」完整 KV 缓存,经自注意力互相协调以避免信息重复捕获,最后投射出紧凑的键、值和偏置。LLM 可以像注意真实上下文一样注意这组紧凑缓存。整个 LLM 冻结,只训练约 710 万个参数(占基座模型 Qwen3-4B 的 0.18%),目标是让紧凑缓存下的输出分布逼近完整缓存(KL 蒸馏)。

方案能跑通依赖三个关键修复。LLM 的键带有旋转位置编码(RoPE),混合不同位置的键会破坏位置信号,团队用「反旋转→压缩→重旋转」流水线解决。标准 Perceiver 末端的归一化层会抹掉键值向量的范数变化,而 LLM 注意力依赖这些信息,移除后效果改善。最关键的是初始化:随机初始化将潜在向量数量上限锁死在 128,超过就发散。团队将压缩器初始化为近似恒等映射,让每个潜在向量起步就是邻域输入的近拷贝,此后从「位置复制」逐步过渡到「内容感知压缩」,上限从 128 扩展到 8192。

实验在 Qwen3-4B 上完成,8K 上下文,8 块 H200 训练。8 倍压缩下,金融和代码领域问答准确率 86%-90%,法律和文学文本稍低(信息更分散,更难压缩)。压缩比固定 8 倍时,上下文从 1K 到 8K 变化,准确率稳定在 85%-92%。跨领域迁移强于预期:金融训练的压缩器评估法律文本 74%,代码训练的在所有领域均达 78%-89%,说明压缩器捕获了 Qwen3-4B 注意力机制中某种跨领域通用的结构。

团队将 STILL 定位为 LLM 持续学习三步路线图的第一步。当前 LLM 记忆只有两个极端:无损但线性增长的 KV 缓存,和高度有损的权重更新及外挂存储。STILL 补上中间一层,即有损但高保真的压缩工作记忆。下一步是迭代压缩:逐块处理文档,每压缩一块就拼到下一块前面再压缩,理论上可用固定大小记忆处理任意长度文本。更远期的设想是让模型通过强化学习自主管理记忆,以及通过超网络将压缩记忆回写权重,实现跨会话知识积累。

研究由 Baseten 模型开发团队负责人 Charlie O'Neill 与 Alex Sandomirsky、Harry Partridge 合著。O'Neill 曾在牛津大学攻读机器学习博士,是 AI 模型公司 Parsed 联合创始人,Parsed 于 2025 年底被 Baseten 收购。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成