Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

周大发表于 2025-10-12 15:54:37

Radical Numerics推出迄今最大开源扩散语言模型RND1-30B，该模型通过将预训练自回归模型Qwen3-30BA3B经“简单持续预训练”（SCP）转换而来，在500B token上完成训练。研究系统探索了A2D转换中的初始化、分层学习率与临界批大小等关键因素，结果显示其在MMLU、GSM8K、MBPP等多个基准上优于Dream-7B和LLaDA-8B，验证了大规模DLM训练的可行性。实验还表明，扩散模型在大batch size下仍有优化收益，临界批大小可达约800万token。尽管未全面超越LLaDA-MoE-7B-A1B，RND1仍是首个在30B级别成功实现扩散训练的开源项目，为DLM发展提供了新路径。
来源：https://mp.weixin.qq.com/s/MwZ8tQamTMsUkxUJC_Nuiw

		自动登录	找回密码
密码			立即注册

课程导航

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录