Cloudflare正式进军大模型推理，首发Kimi K2.5：内部安全Agent日耗70亿token，成本降77%

据 1M AI News 监测，Cloudflare 近日宣布 Workers AI 平台开始支持大模型推理，首个上线的模型是月之暗面的 Kimi K2.5，支持 256K 上下文窗口、多轮工具调用、视觉输入和结构化输出。Agents SDK 模板已将 Kimi K2.5 设为默认模型。

Cloudflare 内部已将 Kimi K2.5 用于日常开发。工程师在 OpenCode 环境中将其作为编程 Agent 的主力模型，还将其接入了自动代码审查流水线。其中一个安全审计 Agent 每天处理超过 70 亿 token，在单个代码库中发现了 15 个以上已确认的安全问题。Cloudflare 估算，若使用中档商业模型运行同一任务，年成本约 240 万美元，切换到 Kimi K2.5 后成本降低 77%。

平台同步推出三项改进：

1. 前缀缓存折扣：多轮对话中已处理的输入 token 不再重复计费，缓存命中的 token 享受折扣价
2. Session affinity header：新增 x-session-affinity 请求头，将同一会话路由至同一模型实例以提高缓存命中率
3. 异步批量推理 API：超出同步速率限制的请求可异步排队执行，内部测试通常在 5 分钟内完成，适合代码扫描、研究类非实时 Agent

原文链接

纠错/举报