据 1M AI News 监测,Elastic 副总裁、AI 搜索基础设施公司 Jina AI 创始人 Han Xiao 在 X 上分享了一项实验:用 KV 缓存替代向量数据库、嵌入模型和整套 RAG 流水线,实现「无向量搜索」。
他在 L4 GPU(生产环境常用的低成本显卡)上将 Qwen 3.5-35B-A3B 模型的 262K 上下文窗口预填充至 99%(258K token),预计算的 KV 缓存存储后用户加载仅需约 1 秒,系统提示词和查询拼接在末尾,生成约 3K token 即可完成一次检索,解码速度约 20 token/秒。运行成本约 $0.26/小时(L4 竞价实例),单个 LLM 完成全部工作,无需向量数据库、嵌入模型或流水线工程。
Han Xiao 在 Jina AI 论文和中英文小说数据集上测试,称结果「相当不错」,存在少量幻觉但多数回答准确且有据可循。他指出 KV 缓存作为文档存储并非新想法(此前 CAG 论文已提出),但量化 KV 缓存和现代注意力机制(混合 SSM-attention、GQA、MQA、MLA)正在快速改变其经济性。这种方案的理论召回率是完美的,因为查询对全部文档执行完整注意力计算,没有分块损失或检索遗漏。
上限也很明显:262K token 大约相当于一本书,扩展到企业知识库规模需要多槽路由机制。他已上线在线演示,并向 llama.cpp 提交了修复超长上下文(>200K)KV 缓存复用问题的 PR。Han Xiao 写道:「如果我们解决冷预填充速度和解码速度的问题,而低成本 GPU 价格持续下降,搜索的未来可能不需要向量。激进,但有可能。」