重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

[复制链接]
周大 发表于 2025-10-31 15:10:58 | 显示全部楼层 |阅读模式
中国人民大学AIMind团队与值得买科技AI团队提出VAFlow,一种全新的视频到音频生成框架。该模型摒弃传统的“从噪声生成”范式,首次实现从视频分布直接生成音频,通过跨模态流匹配机制提升生成质量与稳定性。实验表明,VAFlow在VGGSound数据集上音频生成质量全面超越现有SOTA,在语义对齐和时序同步方面表现优异,且无需文本增强即可达到领先水平。其采用的视频先验(V-Prior)在统计对齐与结构一致性上显著优于高斯先验,并展现出良好的可扩展性,为多模态生成提供了新方向。
来源:https://mp.weixin.qq.com/s/W1xsaXpia2SMxpst0cypXw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:17 , Processed in 0.288383 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表