比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

周大发表于 2025-10-23 15:11:17

浙江大学与新加坡国立大学团队提出新型神经网络操作Translution，统一Self-Attention与卷积机制，通过引入相对位置编码增强模型对结构变化的适应性。其轻量版α-Translution在降低数十分之一显存的同时保持高性能，在ImageNet上准确率提升超6%，语言建模困惑度下降，且实验证明性能增益源于机制创新而非参数膨胀，展现出跨模态泛化潜力。
来源：https://mp.weixin.qq.com/s/mEpGIGn2CnNTy1qdxQv0EQ

		自动登录	找回密码
密码			立即注册

课程导航

比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力