斯坦福医疗AI评测:DeepSeek R1以66%胜率夺冠,临床表现超谷歌OpenAI

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
斯坦福大学团队开发了名为MedHELM的医疗大模型评估框架,涵盖35个基准测试和22个子类别任务,重点模拟临床医生日常工作场景。评估结果显示,DeepSeek R1以66%胜率和0.75宏观平均分领先,o3-mini和Claude系列紧随其后。新开发的13个基准测试中有12个基于真实电子健康记录数据,提升了评估的真实性。研究发现,模型在自由文本生成任务中表现优异,但在结构化推理任务中表现较弱。此外,团队引入“大语言模型评审团”方法,与临床医生评分一致性达0.47,成本效益分析显示Claude系列模型性价比最优。
来源:https://tech.ifeng.com/c/8jsvYLxw3Fp

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 19:30 , Processed in 0.301522 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表