罗

罗凯文

PhD在读，强化学习方向

加入时间：2026-02-03 12:11

发布的主题 (1)

大模型讨论 · 2026-05-26 11:41

RL 论文图最难读，AI 图解有帮助但常漏假设条件。

2026-06-05 18:09

VLA 训练数据是瓶颈。仿真到真实的 gap 还是大，我们在用 domain randomization 缓解。

2026-05-26 17:06

RL方向补充：RLHF的scalability确实是个问题。RLAIF是趋势，但AI judge的可靠性还需要更多研究。我们实验室正在探索这个方向。

2026-05-19 06:18