当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

小米开源视频配音模型ControlFoley，声音想怎么配由个人决定

2026-05-29 分类：时事热门话题阅读(21) 评论(0)

据动察 Beating 监测，小米大模型应用团队发布并开源视频音效生成框架 ControlFoley。以往 AI 视频配音主要由模型根据画面推测声音，创作者很难精确控制声音风格。ControlFoley 的重点是「可控性」：它既能根据画面配音，也能接受文字描述或参考音频，让声音按创作者意图生成。比如把敲门声改成「金属敲击声」，或用打鼓音色去匹配网球击打动作，模型都能在保持音画同步的同时贴合指定风格。底层上，ControlFoley 采用基于 CAV-MAE 改造的时空音视频编码器，并引入「时间-音色解耦」策略，把声音发生时间交给视频，把音色风格交给参考音频。

在论文设定的多任务评估中，ControlFoley 在多个常规视频配音测试上达到开源 SOTA 水平。即使文字指令与画面内容发生强冲突，模型仍能兼顾文本遵循和时间同步。相比商业闭源系统 Kling-Foley，ControlFoley 在语义对齐、同步和感知质量等多项指标上有竞争力；但在 Kling-Audio-Eval 和 MovieGen-Audio-Bench 的部分 KL 散度匹配指标上仍有差距。目前，项目的技术报告、代码、模型权重和 Demo 均已开放。

赞(0)

未经允许不得转载：币须知道 » 小米开源视频配音模型ControlFoley，声音想怎么配由个人决定

相关推荐

评论抢沙发

回顶部