据动察 Beating 监测,阶跃星辰发布端到端实时语音大模型 StepAudio 2.5 Realtime,主打「活人感」对话,支持全维度人设自定义和副语言(语调、停顿、叹息等非语言信号)感知。模型已全量上线开放平台 API。
官方给出的五个评测维度(2026 年 4 月测试)全部拿下第一。其中最能反映真实体验的主观评测(手机 APP 真人对话打分)得 80.41,GPT-Realtime-1.5 为 68.01,Gemini Live 为 67.16。语音问答基准得 79.80,是 GPT-Realtime-1.5(53.20)的近 1.5 倍。副语言理解 82.18,通用对话 86.36,车载场景 84.80。
技术路线有三个关键设计。一是基于 1 万余个原生人设,通过算法裂变出百万级人设特征矩阵,融合大量真实对话语料训练,让模型在长尾小众话题上也能保持稳定。二是针对角色扮演场景做了专属 RLHF(基于人类反馈的强化学习)对齐,解决 AI 聊着聊着「人设崩塌」的老问题。三是理解与生成深度融合,继承自家 StepAudio 2.5 TTS 的表现力,做到全局场景定调和句内细节雕琢。
API 兼容 OpenAI Realtime API 协议(基于 WebSocket),开发者可低成本迁移。定价为输入 10 元/百万 token(缓存命中 2 元),输出 70 元/百万 token,官方估算连续语音通话成本约 3.8 元/小时。
币须知道