阿里通义发布PARSCALE并行计算新策略,1.6B模型性能媲美4.4B,内存消耗骤降95%

[复制链接]
周大 发表于 2025-5-28 15:13:14 | 显示全部楼层 |阅读模式
阿里通义团队提出了一种名为PARSCALE的新优化方法,作为LLM的第三种Scaling Law。该方法通过多路径并行计算提升模型性能,同时显著降低内存和时间成本。实验表明,对于1.6B参数模型,PARSCALE能达到接近4.4B参数模型的性能,内存占用仅为后者的1/22,延迟增加量为1/6。此外,PARSCALE可直接应用于现有模型(如Qwen-2.5),无需从头训练。在GSM8K数学推理任务中,PARSCALE使1.8B模型性能提升34%,效果显著优于传统参数扩展方法。两阶段训练策略进一步降低了训练成本,同时在代码生成任务中结合PEFT方法使Pass@1提升15%。这一新范式为大模型优化提供了全新思路。
来源:https://mp.weixin.qq.com/s/tukh12k0iG-b3WbysI_15w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 05:04 , Processed in 0.270336 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表