当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

阿里T2I评测Qwen-Image-Bench开源，GPT Image 2夺冠且五项全能

2026-05-29 分类：时事热门话题阅读(66) 评论(0)

据动察 Beating 监测，阿里巴巴 Qwen 团队宣布开源全新的绘图评测基准 Qwen-Image-Bench，专门用于评估大模型从文本生成图像（简称 T2I，即输入文字自动画图）的能力。同步推出的还有基于 Qwen3.6-27B 深度训练的统一视觉裁判模型 Q-Judger。评测基准模拟专业艺术创作工作流，包含画质、美学、文字与画面对齐以及新增的真实世界保真度与创意生成 5 大维度，下设 23 个子能力与 56 个细分指标。

Qwen-Image-Bench 包含 1000 个中英双语分层提示词，长短描述各占 500 个，平均同时考核 4 个以上维度。为了进行精细评估，Q-Judger 视觉裁判模型在来自艺术院校的 80 名专业评审监督下进行盲审与三审标注，训练数据集涵盖超 13 万个双语专家标注对。模型输出 56 个维度的结构化得分，与人类专家打分的吻合度高达 92%。

首批 18 个主流图像生成模型评估结果显示，GPT Image 2 以 64.69 的综合得分夺魁，并在所有 5 大维度上均列第一。Nano Banana 2.0 得分为 59.82，GPT Image 1.5 得分为 59.65，Nano Banana Pro 得分为 59.45，分列二三四名，阿里自研的 Qwen Image 2.0 Pro 以 57.84 排名第五，GLM Image 则以 48.19 垫底。数据表明，真实世界保真度与创意生成是拉开模型梯队的关键指标。评测还揭示了当前行业共同的技术瓶颈，在画人手骨骼、表现重力和光影等物理规律、以及处理物体间穿模等细节上，AI 绘画模型普遍容易出错，顶尖模型在这些维度的得分也均低于 44 分。

赞(0)

未经允许不得转载：币须知道 » 阿里T2I评测Qwen-Image-Bench开源，GPT Image 2夺冠且五项全能

相关推荐

评论抢沙发

回顶部