Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

[复制链接]
周大 发表于 2025-10-12 15:54:37 | 显示全部楼层 |阅读模式
Radical Numerics推出迄今最大开源扩散语言模型RND1-30B,该模型通过将预训练自回归模型Qwen3-30BA3B经“简单持续预训练”(SCP)转换而来,在500B token上完成训练。研究系统探索了A2D转换中的初始化、分层学习率与临界批大小等关键因素,结果显示其在MMLU、GSM8K、MBPP等多个基准上优于Dream-7B和LLaDA-8B,验证了大规模DLM训练的可行性。实验还表明,扩散模型在大batch size下仍有优化收益,临界批大小可达约800万token。尽管未全面超越LLaDA-MoE-7B-A1B,RND1仍是首个在30B级别成功实现扩散训练的开源项目,为DLM发展提供了新路径。
来源:https://mp.weixin.qq.com/s/MwZ8tQamTMsUkxUJC_Nuiw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 17:49 , Processed in 0.275775 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表