性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王

[复制链接]
周大 发表于 前天 15:06 | 显示全部楼层 |阅读模式
国产推理大模型MiniMax开源了最新成果MiniMax-M1,该模型支持100万token输入长度(为DeepSeek R1的8倍),并实现8万token输出(超Gemini 2.5 Pro)。其推理效率显著提升,生成10万token时算力需求仅为DeepSeek R1的25%。通过512块H800 GPU,团队仅用3周完成强化学习训练,成本约为53.47万美元。MiniMax-M1在多个基准测试中表现优异,甚至超越OpenAI o3和Claude 4 Opus。技术上采用Lightning Attention混合架构和CISPO算法,优化长链推理能力。模型权重已开放下载,并集成到MiniMax Chat网页版供试玩。此外,“MiniMaxWeek”活动将持续推出更多内容。
来源:https://mp.weixin.qq.com/s/FHis_2BmwtfA7yOe45Rdxg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-19 14:14 , Processed in 0.261500 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表