人大与蚂蚁集团联合发布LLaDA 1.5：数学代码能力全面提升，创新VRPO对齐框架

周大发表于 2025-6-7 15:34:29

中国人民大学高瓴人工智能学院与蚂蚁集团联合提出方差缩减的偏好优化方法VRPO，用于扩散语言模型的强化对齐。该方法以LLaDA为基础，推出升级版LLaDA 1.5，其在数学推理、代码生成和模型对齐等任务上表现出显著提升。研究通过剖析DPO中的关键问题，提出三种方差缩减策略，有效解决了梯度估计不稳定的问题。LLaDA 1.5在指令遵循能力上也有显著进步，验证了方法的通用性和有效性。VRPO为扩散语言模型的强化对齐构建了统一框架，具备广泛的应用前景。
来源：https://mp.weixin.qq.com/s/f7dpasBBj9eXBdkGR0Kvmw

		自动登录	找回密码
密码			立即注册

课程导航

人大与蚂蚁集团联合发布LLaDA 1.5：数学代码能力全面提升，创新VRPO对齐框架