比Transformer更强的架构来了?浙大新作Translution,一统卷积和自注意力

[复制链接]
周大 发表于 2025-10-23 15:11:17 | 显示全部楼层 |阅读模式
浙江大学与新加坡国立大学团队提出新型神经网络操作Translution,统一Self-Attention与卷积机制,通过引入相对位置编码增强模型对结构变化的适应性。其轻量版α-Translution在降低数十分之一显存的同时保持高性能,在ImageNet上准确率提升超6%,语言建模困惑度下降,且实验证明性能增益源于机制创新而非参数膨胀,展现出跨模态泛化潜力。
来源:https://mp.weixin.qq.com/s/mEpGIGn2CnNTy1qdxQv0EQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 09:38 , Processed in 0.279175 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表