里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节

[复制链接]
周大 发表于 昨天 14:45 | 显示全部楼层 |阅读模式
蚂蚁集团联合高校团队发布千亿参数扩散语言模型 LLaDA2.0-flash(100B),首次将 dLLM 扩展至百B级规模。该模型在47项基准测试中平均得分73.18,与顶级AR模型相当,并在代码生成(HumanEval 94.51)和智能体任务上表现更优,推理速度最高提升2.1倍。通过从AR模型平滑迁移、WSD预训练策略及SFT-DPO协同优化,实现了训练稳定与性能突破,为扩散语言模型迈向工业级应用提供可行路径。
来源:https://mp.weixin.qq.com/s/IvYnrDAe7JbjrrIQKvIurA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-12-13 18:19 , Processed in 0.242094 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表