清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

[复制链接]
周大 发表于 2025-10-7 15:42:25 | 显示全部楼层 |阅读模式
清华大学、NVIDIA 与斯坦福团队联合提出 DiffusionNFT,首次将强化学习应用于扩散模型的前向加噪过程,突破传统方法在似然估计、采样器依赖和前向一致性上的局限。该方法通过负例感知微调实现高效优化,在GenEval任务中仅用1k步即大幅提升生成质量,训练效率比FlowGRPO高3~25倍,并在多奖励联合优化下超越更大规模模型,为生成模型对齐提供统一且可扩展的新范式。
来源:https://mp.weixin.qq.com/s/1R0D7WN6-t6HBtQ4hpFjwA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 22:23 , Processed in 0.300526 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表