加密知识一站通
行情·工具·策略

Cloudflare正式进军大模型推理,首发Kimi K2.5:内部安全Agent日耗70亿token,成本降77%

1M AI News 监测,Cloudflare 近日宣布 Workers AI 平台开始支持大模型推理,首个上线的模型是月之暗面的 Kimi K2.5,支持 256K 上下文窗口、多轮工具调用、视觉输入和结构化输出。Agents SDK 模板已将 Kimi K2.5 设为默认模型。

Cloudflare 内部已将 Kimi K2.5 用于日常开发。工程师在 OpenCode 环境中将其作为编程 Agent 的主力模型,还将其接入了自动代码审查流水线。其中一个安全审计 Agent 每天处理超过 70 亿 token,在单个代码库中发现了 15 个以上已确认的安全问题。Cloudflare 估算,若使用中档商业模型运行同一任务,年成本约 240 万美元,切换到 Kimi K2.5 后成本降低 77%。

平台同步推出三项改进:

1. 前缀缓存折扣:多轮对话中已处理的输入 token 不再重复计费,缓存命中的 token 享受折扣价
2. Session affinity header:新增 x-session-affinity 请求头,将同一会话路由至同一模型实例以提高缓存命中率
3. 异步批量推理 API:超出同步速率限制的请求可异步排队执行,内部测试通常在 5 分钟内完成,适合代码扫描、研究类非实时 Agent

赞(0)
未经允许不得转载:币须知道 » Cloudflare正式进军大模型推理,首发Kimi K2.5:内部安全Agent日耗70亿token,成本降77%

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址