加密知识一站通
行情·工具·策略

Resemble AI开源首款导演级可控语音模型DramaBox,实现分离式提示词情绪表演

动察 Beating 监测,Resemble AI 今日在 Hugging Face 开源了语音生成模型 DramaBox。作为首款主打导演级调度(directable)特性的语音引擎,它让 AI 语音彻底告别了毫无起伏的机器人助理模式。

核心机制在于分离式提示词控制。用户在半角双引号内输入台词,在引号外直接输入叹气、长停顿、低语甚至声音因悲伤而沙哑等舞台动作。模型不会读出动作指令,而是直接将其渲染为带有情绪的物理发声,使输出从单纯的声音合成升级为真正的角色表演。这一能力直接替代了原本依赖真人配音或繁琐后期的工作流。

技术细节上,DramaBox 具备零样本音色克隆能力,仅需 10 秒参考音频即可锁定目标音色,并支持通过自然语言提示词直接设定角色的年龄、口音与情绪。模型原生输出 48kHz 立体声的录音室级音频。为防范深度伪造,所有生成音频默认注入不可见的 Perth 隐形水印,该水印能抵抗 MP3 压缩及常规音频编辑操作。

底层架构方面,该模型以 Lightricks 33 亿参数的 LTX-2.3 音频大模型为底座微调,融合了扩散 Transformer(DiT)与流匹配架构,并接入 Gemma 3 12B 处理文本嵌入。

赞(0)
未经允许不得转载:币须知道 » Resemble AI开源首款导演级可控语音模型DramaBox,实现分离式提示词情绪表演

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址