无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

[复制链接]
周大 发表于 2025-10-23 15:11:00 | 显示全部楼层 |阅读模式
清华大学与快手可灵团队联合提出SVG框架,摒弃传统VAE,采用DINO等预训练编码器构建高维潜空间,结合残差分支补足细节,在ImageNet上实现gFID 3.54(25步采样),仅80个epoch即达基线1400 epoch水平。5步采样gFID为12.26,显著提升训练与推理效率,并支持分类、分割等多任务通用应用,验证了生成与理解统一表征空间的可行性。
来源:https://mp.weixin.qq.com/s/2Ay5k1DqCJaiGVNDp_x1iA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 09:40 , Processed in 0.281359 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表