ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

[复制链接]
周大 发表于 2025-10-30 14:40:16 | 显示全部楼层 |阅读模式
香港科技大学研究团队在ICCV 2025提出AlignGuard,一种基于直接偏好优化(DPO)的文图生成模型安全对齐框架。该方法通过构建包含安全与有害图文对的CoProV2数据集,针对不同风险类别训练专用LoRA专家,并采用信号强度加权策略合并模型。实验表明,AlignGuard可移除比现有方法多7倍的有害概念,在保持生成质量的同时展现出优异的泛化能力,为扩散模型的安全部署提供了可扩展的技术路径。
来源:https://mp.weixin.qq.com/s/mSIDwnwFE54DCL2CUztRxw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:13 , Processed in 0.283302 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表