从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思

[复制链接]
周大 发表于 2025-10-16 14:54:29 | 显示全部楼层 |阅读模式
西湖大学团队推出具备“再掩码”能力的扩散语言模型 RemeDi 9B,通过双流结构为每个 token 输出置信度,动态识别并修正生成中的错误,实现“边写边改”。该模型支持可变长生成,采用分块自回归策略,在数学推理、代码生成和问答任务中均超越同类模型。经 Remask SFT 与强化学习两阶段训练,RemeDi 在相近计算预算下显著提升生成质量,验证了自我反思机制对扩散语言模型的有效性。
来源:https://mp.weixin.qq.com/s/EHO4S057hkOz2jhc_yFNNQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:23 , Processed in 0.289039 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表