header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

Cloudflare正式进军大模型推理,首发Kimi K2.5:内部安全Agent日耗70亿token,成本降77%

1M AI News 监测,Cloudflare 近日宣布 Workers AI 平台开始支持大模型推理,首个上线的模型是月之暗面的 Kimi K2.5,支持 256K 上下文窗口、多轮工具调用、视觉输入和结构化输出。Agents SDK 模板已将 Kimi K2.5 设为默认模型。

Cloudflare 内部已将 Kimi K2.5 用于日常开发。工程师在 OpenCode 环境中将其作为编程 Agent 的主力模型,还将其接入了自动代码审查流水线。其中一个安全审计 Agent 每天处理超过 70 亿 token,在单个代码库中发现了 15 个以上已确认的安全问题。Cloudflare 估算,若使用中档商业模型运行同一任务,年成本约 240 万美元,切换到 Kimi K2.5 后成本降低 77%。

平台同步推出三项改进:

1. 前缀缓存折扣:多轮对话中已处理的输入 token 不再重复计费,缓存命中的 token 享受折扣价
2. Session affinity header:新增 x-session-affinity 请求头,将同一会话路由至同一模型实例以提高缓存命中率
3. 异步批量推理 API:超出同步速率限制的请求可异步排队执行,内部测试通常在 5 分钟内完成,适合代码扫描、研究类非实时 Agent

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成