仅710万参数的「记忆压缩器」：STILL毫秒内8倍压缩KV缓存，迈向无限上下文

据 1M AI News 监测，AI 模型推理平台 Baseten 的模型开发团队发布 STILL，一种用单次前向传播将 LLM 的 KV 缓存（模型推理时存储的上下文信息）压缩 8 倍的方法。压缩 8K token 上下文仅需毫秒，抽取式问答准确率保留 85% 以上。此前的压缩方法质量不差，但每段新上下文都要做独立优化：MIT 的 Attention Matching 需秒到分钟，斯坦福的 Cartridges 需分钟到小时。STILL 的思路类似稀疏自编码器（SAE）对字典学习的摊销：不再为每段上下文单独优化，而是学一个固定编码器一次前向传播搞定，速度快了几个数量级。

架构是一个 Perceiver 瓶颈网络，在冻结 LLM 的每一层独立运作。一组可学习的查询向量通过交叉注意力「询问」完整 KV 缓存，经自注意力互相协调以避免信息重复捕获，最后投射出紧凑的键、值和偏置。LLM 可以像注意真实上下文一样注意这组紧凑缓存。整个 LLM 冻结，只训练约 710 万个参数（占基座模型 Qwen3-4B 的 0.18%），目标是让紧凑缓存下的输出分布逼近完整缓存（KL 蒸馏）。

方案能跑通依赖三个关键修复。LLM 的键带有旋转位置编码（RoPE），混合不同位置的键会破坏位置信号，团队用「反旋转→压缩→重旋转」流水线解决。标准 Perceiver 末端的归一化层会抹掉键值向量的范数变化，而 LLM 注意力依赖这些信息，移除后效果改善。最关键的是初始化：随机初始化将潜在向量数量上限锁死在 128，超过就发散。团队将压缩器初始化为近似恒等映射，让每个潜在向量起步就是邻域输入的近拷贝，此后从「位置复制」逐步过渡到「内容感知压缩」，上限从 128 扩展到 8192。

实验在 Qwen3-4B 上完成，8K 上下文，8 块 H200 训练。8 倍压缩下，金融和代码领域问答准确率 86%-90%，法律和文学文本稍低（信息更分散，更难压缩）。压缩比固定 8 倍时，上下文从 1K 到 8K 变化，准确率稳定在 85%-92%。跨领域迁移强于预期：金融训练的压缩器评估法律文本 74%，代码训练的在所有领域均达 78%-89%，说明压缩器捕获了 Qwen3-4B 注意力机制中某种跨领域通用的结构。

团队将 STILL 定位为 LLM 持续学习三步路线图的第一步。当前 LLM 记忆只有两个极端：无损但线性增长的 KV 缓存，和高度有损的权重更新及外挂存储。STILL 补上中间一层，即有损但高保真的压缩工作记忆。下一步是迭代压缩：逐块处理文档，每压缩一块就拼到下一块前面再压缩，理论上可用固定大小记忆处理任意长度文本。更远期的设想是让模型通过强化学习自主管理记忆，以及通过超网络将压缩记忆回写权重，实现跨会话知识积累。

研究由 Baseten 模型开发团队负责人 Charlie O'Neill 与 Alex Sandomirsky、Harry Partridge 合著。O'Neill 曾在牛津大学攻读机器学习博士，是 AI 模型公司 Parsed 联合创始人，Parsed 于 2025 年底被 Baseten 收购。

原文链接

纠错/举报