小红书开源自研中等规模MoE模型dots.llm1,展现强大性能与行业最大开源力度

[复制链接]
周大 发表于 昨天 15:36 | 显示全部楼层 |阅读模式
小红书近日开源了其首个自研大模型 dots.llm1,这是一款总参数量 142B、激活参数 14B 的 MoE 模型,展现了在中英文理解、数学、代码生成等任务上的强劲竞争力,性能可媲美 Qwen2.5 和 Qwen3 系列。该模型基于高质量的 11.2T token 数据训练,未使用合成语料,同时通过创新的 interleaved 1F1B with A2A overlap 方法显著提升训练效率。实测结果表明,dots 在中文绕口令解析、藏头诗创作及响应式天气卡片编码等方面表现出色。此次开源不仅提供模型本身,还包含丰富的预训练 checkpoint 和微调工具,体现了行业领先的开源力度,标志着小红书主动融入技术社区的决心。
来源:https://mp.weixin.qq.com/s/UUqh_F4DpYc35jzxKV7-vQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 18:01 , Processed in 0.293159 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表