据动察 Beating 监测,阿里大模型团队发布具身智能底层模型套件 Qwen-Robot Suite,包含 Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 三款基座模型,分别对应导航、操作与世界模拟三个物理动作领域。套件旨在将视觉语言模型与物理动作对齐,实现多任务与多机型的具身泛化。
导航模型 Qwen-RobotNav 统一了指令跟随、目标导航、目标追踪和自动驾驶等任务。设计上,模型参数化了视觉分配策略,支持推理时动态调整视觉 token 预算与帧采样等控制轴。在 1560 万条样本上训练后,Qwen-RobotNav 在 5 个导航领域取得 SOTA,并已零样本部署于宇树 Go2 四足机器人。
操作模型 Qwen-RobotManip 基于 Qwen3.5-4B VL 骨干网络与流匹配 DiT 动作头构建,采用 80 维状态-动作表示输出末端执行器增量位姿。团队使用超过 38100 小时数据(含开源机器人演示、人类视频及人机迁移合成数据)进行训练,在 LIBERO-Plus 评测中取得 91.4% 的成功率。
物理世界预测模型 Qwen-RobotWorld 采用自然语言统一机器人动作接口。架构上,模型基于 60 层双流 MMDiT 将 Qwen2.5-VL 语义表示与视频隐变量深度耦合。在 860 万个视频-文本对上训练后,Qwen-RobotWorld 在 EWMBench 和 WorldModelBench 等物理规律遵循评测中均位列第一。
三个模型均提供语言优先接口。阿里同时推出机器人智能体框架 Qwen-RobotClaw,由上层规划器(如 Qwen-3.5)调用套件模型作为物理工具以实现多步操作。
币须知道