当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

xAI开放Grok STT与TTS音频API，STT整体词错率压到6.9%

2026-04-18 分类：时事热门话题阅读(6) 评论(0)

据动察 Beating 监测，xAI 上线两个独立音频 API：Grok Speech to Text 和 Grok Text to Speech。两者来自支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频栈，此次以独立 endpoint 形式开放，开发者可直接接入语音代理、实时转录、无障碍工具和播客等应用。

STT 提供两种模式。REST API 用于对大音频文件批量转录，毫秒级返回；WebSocket API 面向实时语音流。附带能力包括词级时间戳、说话人分离（diarization）、多通道分别识别，以及 Inverse Text Normalization，即把口语里的数字、日期、货币自动整形为规范的结构化文本。语种覆盖 25 种以上，可在对话中无缝切换。

xAI 同时公布一组词错率（WER，数值越低越好）对比：整体场景 Grok 6.9%，ElevenLabs 9.0%，Deepgram 11.0%，AssemblyAI 12.9%；「电话通话实体识别」差距被拉得更大，Grok 5.0%，对应三家分别为 12.0%、13.5%、21.3%。会议、视频播客、电话三类常见业务场景下 Grok 也都小幅领先。这组数字由 xAI 自行测试公布，尚无第三方复测。

定价上，STT 批处理 0.10 美元/小时、流式 0.20 美元/小时；TTS 为 4.20 美元/100 万字符。

TTS 支持用内联 Speech Tags 控制情感和韵律，例如 `[laugh]`、`[sigh]`、`[whisper]`、`

赞(0)

未经允许不得转载：币须知道 » xAI开放Grok STT与TTS音频API，STT整体词错率压到6.9%

相关推荐

评论抢沙发

回顶部