稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

[复制链接]
周大 发表于 2025-10-18 13:56:11 | 显示全部楼层 |阅读模式
清华大学与CMU团队提出SAC Flow,通过将流策略视为残差RNN,采用GRU(Flow-G)和Transformer(Flow-T)结构稳定训练过程,首次实现用SAC直接端到端优化流策略。该方法解决了传统off-policy RL训练中梯度爆炸问题,在MuJoCo、OGBench等多个基准上达到SOTA性能,样本效率高且收敛稳定。消融实验表明其对采样步数鲁棒,优于FlowRL、QC-FQL等现有方法,保留了流策略的强表达能力,未来将推进真实机器人应用。
来源:https://mp.weixin.qq.com/s/48Q3o5__Bb_oRR0J0lycWw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:24 , Processed in 0.278008 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表