重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

周大发表于 2025-10-31 15:10:58

中国人民大学AIMind团队与值得买科技AI团队提出VAFlow，一种全新的视频到音频生成框架。该模型摒弃传统的“从噪声生成”范式，首次实现从视频分布直接生成音频，通过跨模态流匹配机制提升生成质量与稳定性。实验表明，VAFlow在VGGSound数据集上音频生成质量全面超越现有SOTA，在语义对齐和时序同步方面表现优异，且无需文本增强即可达到领先水平。其采用的视频先验（V-Prior）在统计对齐与结构一致性上显著优于高斯先验，并展现出良好的可扩展性，为多模态生成提供了新方向。
来源：https://mp.weixin.qq.com/s/W1xsaXpia2SMxpst0cypXw

		自动登录	找回密码
密码			立即注册

课程导航

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」