数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了

[复制链接]
周大 发表于 前天 14:41 | 显示全部楼层 |阅读模式
香港城市大学与香港中文大学的研究团队提出帧感知视频扩散模型 (FVDM),通过引入向量化时间步变量 (VTV),突破传统标量时间步的限制,大幅提升视频生成的时序建模能力。基于此理论,团队与华为合作推出 Pusa 项目,利用非破坏性微调策略,仅以 500 美元的成本便超越官方模型效果,成本降低超 200 倍。Pusa 不仅支持图生视频、首尾帧生成等多样化任务,还保留文生视频能力。此外,Pusa-Mochi 更将成本降至 100 美元。目前,Pusa 已全面开源,旨在推动视频生成技术的进一步发展。
来源:https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-21 13:17 , Processed in 0.280484 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表