人大与蚂蚁集团联合发布LLaDA 1.5:数学代码能力全面提升,创新VRPO对齐框架

[复制链接]
周大 发表于 昨天 15:34 | 显示全部楼层 |阅读模式
中国人民大学高瓴人工智能学院与蚂蚁集团联合提出方差缩减的偏好优化方法VRPO,用于扩散语言模型的强化对齐。该方法以LLaDA为基础,推出升级版LLaDA 1.5,其在数学推理、代码生成和模型对齐等任务上表现出显著提升。研究通过剖析DPO中的关键问题,提出三种方差缩减策略,有效解决了梯度估计不稳定的问题。LLaDA 1.5在指令遵循能力上也有显著进步,验证了方法的通用性和有效性。VRPO为扩散语言模型的强化对齐构建了统一框架,具备广泛的应用前景。
来源:https://mp.weixin.qq.com/s/f7dpasBBj9eXBdkGR0Kvmw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 19:17 , Processed in 0.279294 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表