美团发布并开源LongCat-Flash-Omni模型:支持实时音视频交互,达到SOTA水平

[复制链接]
周大 发表于 6 天前 | 显示全部楼层 |阅读模式
美团发布开源全模态大模型LongCat-Flash-Omni,总参数5600亿,激活参数270亿,集成高效多模态与语音模块,实现毫秒级响应。在文本、图像、音频、视频及跨模态任务中均达开源SOTA水平,图像理解74.8分媲美Gemini-2.5-Pro,音频能力多项指标超越闭源模型,端到端交互评分超Qwen3-Omni 0.56分,为首个实现全模态覆盖与高效推理的开源模型。
来源:https://tech.ifeng.com/c/8nybdNjacT0

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:19 , Processed in 0.295058 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表