据动察 Beating 监测,Resemble AI 今日在 Hugging Face 开源了语音生成模型 DramaBox。作为首款主打导演级调度(directable)特性的语音引擎,它让 AI 语音彻底告别了毫无起伏的机器人助理模式。
核心机制在于分离式提示词控制。用户在半角双引号内输入台词,在引号外直接输入叹气、长停顿、低语甚至声音因悲伤而沙哑等舞台动作。模型不会读出动作指令,而是直接将其渲染为带有情绪的物理发声,使输出从单纯的声音合成升级为真正的角色表演。这一能力直接替代了原本依赖真人配音或繁琐后期的工作流。
技术细节上,DramaBox 具备零样本音色克隆能力,仅需 10 秒参考音频即可锁定目标音色,并支持通过自然语言提示词直接设定角色的年龄、口音与情绪。模型原生输出 48kHz 立体声的录音室级音频。为防范深度伪造,所有生成音频默认注入不可见的 Perth 隐形水印,该水印能抵抗 MP3 压缩及常规音频编辑操作。
底层架构方面,该模型以 Lightricks 33 亿参数的 LTX-2.3 音频大模型为底座微调,融合了扩散 Transformer(DiT)与流匹配架构,并接入 Gemma 3 12B 处理文本嵌入。
币须知道