Jina AI创始人实测「无向量搜索」：用KV缓存替代RAG，单模型完成检索与生成

据 1M AI News 监测，Elastic 副总裁、AI 搜索基础设施公司 Jina AI 创始人 Han Xiao 在 X 上分享了一项实验：用 KV 缓存替代向量数据库、嵌入模型和整套 RAG 流水线，实现「无向量搜索」。

他在 L4 GPU（生产环境常用的低成本显卡）上将 Qwen 3.5-35B-A3B 模型的 262K 上下文窗口预填充至 99%（258K token），预计算的 KV 缓存存储后用户加载仅需约 1 秒，系统提示词和查询拼接在末尾，生成约 3K token 即可完成一次检索，解码速度约 20 token/秒。运行成本约 $0.26/小时（L4 竞价实例），单个 LLM 完成全部工作，无需向量数据库、嵌入模型或流水线工程。

Han Xiao 在 Jina AI 论文和中英文小说数据集上测试，称结果「相当不错」，存在少量幻觉但多数回答准确且有据可循。他指出 KV 缓存作为文档存储并非新想法（此前 CAG 论文已提出），但量化 KV 缓存和现代注意力机制（混合 SSM-attention、GQA、MQA、MLA）正在快速改变其经济性。这种方案的理论召回率是完美的，因为查询对全部文档执行完整注意力计算，没有分块损失或检索遗漏。

上限也很明显：262K token 大约相当于一本书，扩展到企业知识库规模需要多槽路由机制。他已上线在线演示，并向 llama.cpp 提交了修复超长上下文（>200K）KV 缓存复用问题的 PR。Han Xiao 写道：「如果我们解决冷预填充速度和解码速度的问题，而低成本 GPU 价格持续下降，搜索的未来可能不需要向量。激进，但有可能。」

原文链接

纠错/举报