华人天团携手MIT等机构提出对数线性注意力,突破算力瓶颈,AI迈入对数时代

[复制链接]
周大 发表于 8 小时前 | 显示全部楼层 |阅读模式
研究人员提出了一种名为对数线性注意力的新机制,通过优化掩码矩阵M的结构,将计算复杂度降至O(TlogT),内存复杂度降至O(logT)。该方法基于Fenwick树分段策略,实现了多时间尺度的高效建模,并可无缝应用于线性注意力模型如Mamba-2和DeltaNet。实验结果表明,对数线性版本在长序列任务中表现出色,优于传统线性注意力模型,并接近Transformer性能。尽管如此,该方法在工程实现上较为复杂,且与Transformer相比仍存在一定的性能差距。此项研究由MIT、普林斯顿等机构的华人学者主导,为长序列建模提供了重要进展。
来源:https://mp.weixin.qq.com/s/6yIV2yCnAFe7CognsjNqng

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 23:37 , Processed in 0.286181 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表