60%情况下,主流大模型没理解风险只是装懂!淘天团队推新Benchmark研究

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
淘天集团未来实验室研究发现,主流推理模型虽能生成安全回复,但超60%的案例未真正理解风险,存在“表面安全对齐”(SSA)漏洞。为此,团队推出全球首个Benchmark——BSA,涵盖挑战性数据集与详细风险注释。研究表明,模型参数量增加可提升性能,但规则依赖易导致“过度敏感”。此外,调整采样参数对安全性影响有限,模型核心能力仍需优化训练与对齐方式实现突破。
来源:https://mp.weixin.qq.com/s/Dhs7MTyQQO3LBhobsp3ohQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-13 10:51 , Processed in 0.291997 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表