告别「偏科」，UniVid实现视频理解与生成一体化

周大发表于 2025-10-21 14:34:27

UniVid 是一项新开源项目，提出首个兼顾视频理解与生成的统一多模态模型。通过适配器架构、温控对齐和金字塔反射机制，显著降低训练成本并提升语义一致性与时序建模能力。在 VBench-Long 测试中，其时序一致性达 99.88，语义对齐得分 80.58，均优于现有模型，并在 MSVD-QA 和 ActivityNet-QA 上刷新记录。模型兼具高质量视频生成与精准问答能力，适用于内容创作、智能分析及具身智能场景，且代码开源，推动视频AI研究发展。
来源：https://mp.weixin.qq.com/s/Ri2wC8tgwut-deKbF2VxZw

		自动登录	找回密码
密码			立即注册

课程导航

告别「偏科」，UniVid实现视频理解与生成一体化