据动察 Beating 监测,阿里 PAI 团队发布并开源了专为工业级工具调用设计的小型智能体语言模型 AgenticQwen(包含 8B 和 30B-A3B 两个版本)。该系列模型通过创新的「双数据飞轮」强化学习框架训练,在大幅降低推理成本的同时,实现了接近千亿参数大模型的智能体(Agent)能力。
核心机制在于其「双数据飞轮」训练法。传统的合成数据容易同质化导致模型性能触顶,AgenticQwen 对此引入了两个飞轮:推理飞轮会从模型的错题中自动生成更难的变体;智能体飞轮则根据模型的执行轨迹,将简单的线性工作流(如单一的订票流程)扩展为包含约束、拒绝和对抗条件的多分支行为树,模拟真实的复杂决策场景。
评测显示,AgenticQwen-8B 在真实工具环境基准(如 TAU-2 和 BFCL-V4)中平均得分 47.4,远超基础版 Qwen3-8B(23.8),逼近 Qwen3-235B(52.0)。AgenticQwen-30B-A3B(仅激活 3B 参数)得分达 50.2。目前该模型已在内部类似 Manus 的生产系统中部署,大幅缩小了与 235B 大模型的差距(端到端推理时间更短),不过论文也坦言,受限于 40K 的原生上下文长度,小模型在深层搜索任务上仍有局限。
币须知道