加密知识一站通
行情·工具·策略

阿里T2I评测Qwen-Image-Bench开源,GPT Image 2夺冠且五项全能

动察 Beating 监测,阿里巴巴 Qwen 团队宣布开源全新的绘图评测基准 Qwen-Image-Bench,专门用于评估大模型从文本生成图像(简称 T2I,即输入文字自动画图)的能力。同步推出的还有基于 Qwen3.6-27B 深度训练的统一视觉裁判模型 Q-Judger。评测基准模拟专业艺术创作工作流,包含画质、美学、文字与画面对齐以及新增的真实世界保真度与创意生成 5 大维度,下设 23 个子能力与 56 个细分指标。

Qwen-Image-Bench 包含 1000 个中英双语分层提示词,长短描述各占 500 个,平均同时考核 4 个以上维度。为了进行精细评估,Q-Judger 视觉裁判模型在来自艺术院校的 80 名专业评审监督下进行盲审与三审标注,训练数据集涵盖超 13 万个双语专家标注对。模型输出 56 个维度的结构化得分,与人类专家打分的吻合度高达 92%。

首批 18 个主流图像生成模型评估结果显示,GPT Image 2 以 64.69 的综合得分夺魁,并在所有 5 大维度上均列第一。Nano Banana 2.0 得分为 59.82,GPT Image 1.5 得分为 59.65,Nano Banana Pro 得分为 59.45,分列二三四名,阿里自研的 Qwen Image 2.0 Pro 以 57.84 排名第五,GLM Image 则以 48.19 垫底。数据表明,真实世界保真度与创意生成是拉开模型梯队的关键指标。评测还揭示了当前行业共同的技术瓶颈,在画人手骨骼、表现重力和光影等物理规律、以及处理物体间穿模等细节上,AI 绘画模型普遍容易出错,顶尖模型在这些维度的得分也均低于 44 分。

赞(0)
未经允许不得转载:币须知道 » 阿里T2I评测Qwen-Image-Bench开源,GPT Image 2夺冠且五项全能

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址