当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

Cloudflare正式进军大模型推理，首发Kimi K2.5：内部安全Agent日耗70亿token，成本降77%

2026-03-24 分类：时事热门话题阅读(2) 评论(0)

据 1M AI News 监测，Cloudflare 近日宣布 Workers AI 平台开始支持大模型推理，首个上线的模型是月之暗面的 Kimi K2.5，支持 256K 上下文窗口、多轮工具调用、视觉输入和结构化输出。Agents SDK 模板已将 Kimi K2.5 设为默认模型。

Cloudflare 内部已将 Kimi K2.5 用于日常开发。工程师在 OpenCode 环境中将其作为编程 Agent 的主力模型，还将其接入了自动代码审查流水线。其中一个安全审计 Agent 每天处理超过 70 亿 token，在单个代码库中发现了 15 个以上已确认的安全问题。Cloudflare 估算，若使用中档商业模型运行同一任务，年成本约 240 万美元，切换到 Kimi K2.5 后成本降低 77%。

平台同步推出三项改进：

1. 前缀缓存折扣：多轮对话中已处理的输入 token 不再重复计费，缓存命中的 token 享受折扣价
2. Session affinity header：新增 x-session-affinity 请求头，将同一会话路由至同一模型实例以提高缓存命中率
3. 异步批量推理 API：超出同步速率限制的请求可异步排队执行，内部测试通常在 5 分钟内完成，适合代码扫描、研究类非实时 Agent

赞(0)

未经允许不得转载：币须知道 » Cloudflare正式进军大模型推理，首发Kimi K2.5：内部安全Agent日耗70亿token，成本降77%

相关推荐

评论抢沙发

回顶部