无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」

周大发表于 2025-10-23 15:11:00

清华大学与快手可灵团队联合提出SVG框架，摒弃传统VAE，采用DINO等预训练编码器构建高维潜空间，结合残差分支补足细节，在ImageNet上实现gFID 3.54（25步采样），仅80个epoch即达基线1400 epoch水平。5步采样gFID为12.26，显著提升训练与推理效率，并支持分类、分割等多任务通用应用，验证了生成与理解统一表征空间的可行性。
来源：https://mp.weixin.qq.com/s/2Ay5k1DqCJaiGVNDp_x1iA

		自动登录	找回密码
密码			立即注册

课程导航

无VAE扩散模型！ 清华&可灵团队「撞车」谢赛宁团队「RAE」

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」