据 1M AI News 监测,Cloudflare 近日宣布 Workers AI 平台开始支持大模型推理,首个上线的模型是月之暗面的 Kimi K2.5,支持 256K 上下文窗口、多轮工具调用、视觉输入和结构化输出。Agents SDK 模板已将 Kimi K2.5 设为默认模型。
Cloudflare 内部已将 Kimi K2.5 用于日常开发。工程师在 OpenCode 环境中将其作为编程 Agent 的主力模型,还将其接入了自动代码审查流水线。其中一个安全审计 Agent 每天处理超过 70 亿 token,在单个代码库中发现了 15 个以上已确认的安全问题。Cloudflare 估算,若使用中档商业模型运行同一任务,年成本约 240 万美元,切换到 Kimi K2.5 后成本降低 77%。
平台同步推出三项改进:
1. 前缀缓存折扣:多轮对话中已处理的输入 token 不再重复计费,缓存命中的 token 享受折扣价
2. Session affinity header:新增 x-session-affinity 请求头,将同一会话路由至同一模型实例以提高缓存命中率
3. 异步批量推理 API:超出同步速率限制的请求可异步排队执行,内部测试通常在 5 分钟内完成,适合代码扫描、研究类非实时 Agent
币须知道