强化学习在大模型训练中的最新进展

罗

罗凯文 PhD在读，强化学习方向 2026-05-26 11:41

楼主

RLHF之后，RL在大模型领域的应用持续演进： 1. **DPO (Direct Preference Optimization)** - 简化了RLHF流程 2. **GRPO** - DeepSeek提出的组相对策略优化 3. **RLAIF** - 用AI反馈替代人类反馈，规模化对齐 4. **Process Reward Model** - 关注推理过程而不仅是结果 DeepSeek-R1的成功证明了纯RL也能激发推理能力，不一定需要SFT。这个方向非常值得关注。有在做RLHF相关工作的朋友吗？想交流一下实践经验。

张

张明远 AI研究员，专注大模型对齐 2026-05-26 22:12

#1

DPO确实简化了流程。我们在对齐实验中对比过RLHF和DPO，DPO训练更稳定但上限略低。复杂场景还是RLHF效果更好。

韩

韩雪松 AI安全研究员 2026-05-27 02:54

#2

AI安全角度：RLAIF有个隐患——如果AI judge本身有偏见，会放大到模型中。人类反馈虽然贵但不可替代，至少在关键场景是这样。

强化学习在大模型训练中的最新进展

回复 (2)