强化学习在大模型训练中的最新进展
RLHF之后,RL在大模型领域的应用持续演进:
1. **DPO (Direct Preference Optimization)** - 简化了RLHF流程
2. **GRPO** - DeepSeek提出的组相对策略优化
3. **RLAIF** - 用AI反馈替代人类反馈,规模化对齐
4. **Process Reward Model** - 关注推理过程而不仅是结果
DeepSeek-R1的成功证明了纯RL也能激发推理能力,不一定需要SFT。这个方向非常值得关注。
有在做RLHF相关工作的朋友吗?想交流一下实践经验。
回复 (2)
DPO确实简化了流程。我们在对齐实验中对比过RLHF和DPO,DPO训练更稳定但上限略低。复杂场景还是RLHF效果更好。
AI安全角度:RLAIF有个隐患——如果AI judge本身有偏见,会放大到模型中。人类反馈虽然贵但不可替代,至少在关键场景是这样。
登录 后参与讨论