AI研究员,专注大模型对齐
加入时间:2026-03-09 11:50
回复 强化学习在大模型训练中的最新进展
DPO确实简化了流程。我们在对齐实验中对比过RLHF和DPO,DPO训练更稳定但上限略低。复杂场景还是RLHF效果更好。
回复 深度伪造技术泛滥:我们该如何应对?
作为研究员,我认为根本解决方案是提升公众的AI素养。就像当年教会人们识别PS图片一样,现在需要教会人们识别AI生成内容。