清华姚班校友等谷歌团队提出新框架,爆改注意力机制,三新型模型全面超越Transformer

[复制链接]
周大 发表于 昨天 15:42 | 显示全部楼层 |阅读模式
谷歌提出新架构Miras,通过「注意力偏向+保留门」机制重新定义AI模型设计。新模型Moneta、Yaad和Memora在语言建模、常识推理等任务中超越Transformer,参数减少40%,训练速度较RNN提升5-8倍。其中,Yaad常识推理准确率提升7.2%,Moneta语言建模PPL提升23%。Miras框架包含记忆架构、注意力偏向等四个设计维度,显著优化长序列任务表现。
来源:https://mp.weixin.qq.com/s/n7vUg1DumHHOKTql3stSOw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 18:04 , Processed in 0.282850 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表