ICCV 2025 | 港科、牛津大学发布AlignGuard，文图生成模型可规模化安全对齐框架

周大发表于 2025-10-30 14:40:16

香港科技大学研究团队在ICCV 2025提出AlignGuard，一种基于直接偏好优化（DPO）的文图生成模型安全对齐框架。该方法通过构建包含安全与有害图文对的CoProV2数据集，针对不同风险类别训练专用LoRA专家，并采用信号强度加权策略合并模型。实验表明，AlignGuard可移除比现有方法多7倍的有害概念，在保持生成质量的同时展现出优异的泛化能力，为扩散模型的安全部署提供了可扩展的技术路径。
来源：https://mp.weixin.qq.com/s/mSIDwnwFE54DCL2CUztRxw

		自动登录	找回密码
密码			立即注册

课程导航

ICCV 2025 | 港科、牛津大学发布AlignGuard，文图生成模型可规模化安全对齐框架