据动察 Beating 监测,小米大模型应用团队发布并开源视频音效生成框架 ControlFoley。以往 AI 视频配音主要由模型根据画面推测声音,创作者很难精确控制声音风格。ControlFoley 的重点是「可控性」:它既能根据画面配音,也能接受文字描述或参考音频,让声音按创作者意图生成。比如把敲门声改成「金属敲击声」,或用打鼓音色去匹配网球击打动作,模型都能在保持音画同步的同时贴合指定风格。底层上,ControlFoley 采用基于 CAV-MAE 改造的时空音视频编码器,并引入「时间-音色解耦」策略,把声音发生时间交给视频,把音色风格交给参考音频。
在论文设定的多任务评估中,ControlFoley 在多个常规视频配音测试上达到开源 SOTA 水平。即使文字指令与画面内容发生强冲突,模型仍能兼顾文本遵循和时间同步。相比商业闭源系统 Kling-Foley,ControlFoley 在语义对齐、同步和感知质量等多项指标上有竞争力;但在 Kling-Audio-Eval 和 MovieGen-Audio-Bench 的部分 KL 散度匹配指标上仍有差距。目前,项目的技术报告、代码、模型权重和 Demo 均已开放。
币须知道