蚂蚁开源业内首个100B扩散语言模型LLaDA2.0

[复制链接]
周大 发表于 3 小时前 | 显示全部楼层 |阅读模式
蚂蚁技术研究院发布LLaDA2.0系列离散扩散大语言模型,包含16B和100B两个MoE架构版本,首次将扩散模型规模拓展至100B级别。该模型在代码、数学和智能体任务上优于同级自回归模型,并通过WSD预训练策略继承AR模型知识,结合CAP与扩散版DPO技术,实现推理速度提升2.1倍。评估显示其在结构化生成方面优势显著,整体性能与主流AR模型相当,模型权重与代码已开源。
来源:https://tech.ifeng.com/c/8p1fbVPzCPV

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-12-13 18:04 , Processed in 0.247487 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表