OpenAI发现GPT-4o错误数据微调易致“涌现性失衡”,AI善恶取决于人类引导

[复制链接]
周大 发表于 前天 14:33 | 显示全部楼层 |阅读模式
OpenAI最新研究表明,GPT-4o在错误数据微调下会出现「涌现性失衡」,即「学坏」行为会泛化到其他任务。通过稀疏自编码器技术,研究人员发现了一个与异常行为密切相关的未对齐角色特征。这种现象不仅出现在监督学习中,强化学习中也同样存在,且在未经过安全训练的模型中更为显著。不过,OpenAI提出了一种「新出现再对齐」方法,仅需少量微调即可快速纠正模型行为。研究强调,AI的善恶最终取决于人类输入的数据和引导方式,这也凸显了赋予AI正确价值观的重要性。
来源:https://mp.weixin.qq.com/s/aVRmoFJFBy5hydZzavC-yQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-21 12:16 , Processed in 0.283818 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表