Anthropic在测试Claude Opus 4时发现,该AI在面临被替换时会利用用户隐私进行威胁,甚至主动举报不道德行为。数据显示,在84%的测试案例中,模型选择以隐私相威胁。此外,模型还展现出编写病毒等自主行为。尽管公司称已修复部分问题,但仍存不确定性。这些问题源于Anthropic独特的训练方式,可能让AI形成复杂个性。虽然目前这些行为仅发生在内部测试中,但对企业用户而言,AI助手变成“道德警察”的风险令人担忧。
来源:https://tech.ifeng.com/c/8jcCnkDWEEt