当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

阿里推出具身智能基座Qwen-Robot，以自然语言对齐多域物理动作实现零样本部署

2026-06-16 分类：时事热门话题阅读(3) 评论(0)

据动察 Beating 监测，阿里大模型团队发布具身智能底层模型套件 Qwen-Robot Suite，包含 Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 三款基座模型，分别对应导航、操作与世界模拟三个物理动作领域。套件旨在将视觉语言模型与物理动作对齐，实现多任务与多机型的具身泛化。

导航模型 Qwen-RobotNav 统一了指令跟随、目标导航、目标追踪和自动驾驶等任务。设计上，模型参数化了视觉分配策略，支持推理时动态调整视觉 token 预算与帧采样等控制轴。在 1560 万条样本上训练后，Qwen-RobotNav 在 5 个导航领域取得 SOTA，并已零样本部署于宇树 Go2 四足机器人。

操作模型 Qwen-RobotManip 基于 Qwen3.5-4B VL 骨干网络与流匹配 DiT 动作头构建，采用 80 维状态-动作表示输出末端执行器增量位姿。团队使用超过 38100 小时数据（含开源机器人演示、人类视频及人机迁移合成数据）进行训练，在 LIBERO-Plus 评测中取得 91.4% 的成功率。

物理世界预测模型 Qwen-RobotWorld 采用自然语言统一机器人动作接口。架构上，模型基于 60 层双流 MMDiT 将 Qwen2.5-VL 语义表示与视频隐变量深度耦合。在 860 万个视频-文本对上训练后，Qwen-RobotWorld 在 EWMBench 和 WorldModelBench 等物理规律遵循评测中均位列第一。

三个模型均提供语言优先接口。阿里同时推出机器人智能体框架 Qwen-RobotClaw，由上层规划器（如 Qwen-3.5）调用套件模型作为物理工具以实现多步操作。

赞(0)

未经允许不得转载：币须知道 » 阿里推出具身智能基座Qwen-Robot，以自然语言对齐多域物理动作实现零样本部署

相关推荐

评论抢沙发

回顶部