斯坦福华人团队用纯CUDA-C编写AI内核,性能超越PyTorch,引爆技术圈

[复制链接]
周大 发表于 2025-5-31 14:36:29 | 显示全部楼层 |阅读模式
斯坦福大学华人团队通过纯CUDA-C编写AI生成内核,在多项测试中超越了PyTorch的专家优化内核。该团队由Anne Ouyang、Azalia Mirhoseini和Percy Liang组成,采用KernelBench任务设置,专注于FP32精度优化。研究引入了自然语言推理和分支扩展方法,显著提升了优化多样性与效率。具体优化策略包括内存访问优化、延迟隐藏及数据类型调整等。实验结果显示,Conv2D内核性能达到了PyTorch参考实现的179.9%,其他算子如Softmax和LayerNorm也有显著提升。这一成果登上Hacker News热榜,引发了关于AI优化潜力的广泛讨论。
来源:https://tech.ifeng.com/c/8jnncyGWJIc

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 17:32 , Processed in 0.289590 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表