当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

Resemble AI开源首款导演级可控语音模型DramaBox，实现分离式提示词情绪表演

2026-05-15 分类：时事热门话题阅读(43) 评论(0)

据动察 Beating 监测，Resemble AI 今日在 Hugging Face 开源了语音生成模型 DramaBox。作为首款主打导演级调度（directable）特性的语音引擎，它让 AI 语音彻底告别了毫无起伏的机器人助理模式。

核心机制在于分离式提示词控制。用户在半角双引号内输入台词，在引号外直接输入叹气、长停顿、低语甚至声音因悲伤而沙哑等舞台动作。模型不会读出动作指令，而是直接将其渲染为带有情绪的物理发声，使输出从单纯的声音合成升级为真正的角色表演。这一能力直接替代了原本依赖真人配音或繁琐后期的工作流。

技术细节上，DramaBox 具备零样本音色克隆能力，仅需 10 秒参考音频即可锁定目标音色，并支持通过自然语言提示词直接设定角色的年龄、口音与情绪。模型原生输出 48kHz 立体声的录音室级音频。为防范深度伪造，所有生成音频默认注入不可见的 Perth 隐形水印，该水印能抵抗 MP3 压缩及常规音频编辑操作。

底层架构方面，该模型以 Lightricks 33 亿参数的 LTX-2.3 音频大模型为底座微调，融合了扩散 Transformer（DiT）与流匹配架构，并接入 Gemma 3 12B 处理文本嵌入。

赞(0)

未经允许不得转载：币须知道 » Resemble AI开源首款导演级可控语音模型DramaBox，实现分离式提示词情绪表演

相关推荐

评论抢沙发

回顶部