告别「偏科」,UniVid实现视频理解与生成一体化

[复制链接]
周大 发表于 2025-10-21 14:34:27 | 显示全部楼层 |阅读模式
UniVid 是一项新开源项目,提出首个兼顾视频理解与生成的统一多模态模型。通过适配器架构、温控对齐和金字塔反射机制,显著降低训练成本并提升语义一致性与时序建模能力。在 VBench-Long 测试中,其时序一致性达 99.88,语义对齐得分 80.58,均优于现有模型,并在 MSVD-QA 和 ActivityNet-QA 上刷新记录。模型兼具高质量视频生成与精准问答能力,适用于内容创作、智能分析及具身智能场景,且代码开源,推动视频AI研究发展。
来源:https://mp.weixin.qq.com/s/Ri2wC8tgwut-deKbF2VxZw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:28 , Processed in 0.286491 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表