英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生

[复制链接]
周大 发表于 2025-5-23 15:30:48 | 显示全部楼层 |阅读模式
英伟达借助Blackwell GPU在Llama 4 Maverick模型上实现单用户每秒生成1000个token的新纪录,单服务器吞吐量高达72,000 TPS。通过TensorRT-LLM优化框架、FP8数据格式及CUDA内核优化技术,显著提升推理速度与效率。推测解码技术进一步加速推理过程,确保超大规模模型具备低延迟和高响应性能,满足实时用户体验需求。
来源:https://mp.weixin.qq.com/s/gFkCJpB1HD_rNaBlWnj2fQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 13:18 , Processed in 0.284813 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表