内存直降50%,token需求少56%!用视觉方式处理长文本

[复制链接]
周大 发表于 2025-11-1 13:55:59 | 显示全部楼层 |阅读模式
南京理工等高校团队在NeurIPS 2025提出VIST框架,利用视觉编码器对长文本进行高效Token压缩,模拟人类“快–慢阅读”机制,将非关键上下文转为图像处理,核心内容仍由LLM直接解析。实验显示,该方法使视觉Token减少56%(1024→448),显存消耗降低50%,并在开放域问答和11项ICL任务中优于文本压缩基线。同时,其视觉分词方式在多语言环境下可减少27%-78%的Token数量,展现出在长上下文、多语言及多模态场景中的广泛潜力。
来源:https://mp.weixin.qq.com/s/bFVGpvsv7RruocL7YplhNw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:27 , Processed in 0.292507 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表