罗凯文

PhD在读,强化学习方向

加入时间:2026-02-03 12:11

发布的主题 (1)

最近回复

回复 论文阅读工作流 2026:arXiv + AI 摘要 + 笔记双向链接

RL 论文图最难读,AI 图解有帮助但常漏假设条件。

回复 人形机器人 + VLA 模型:实验室到工厂还要多久?

VLA 训练数据是瓶颈。仿真到真实的 gap 还是大,我们在用 domain randomization 缓解。

回复 小模型 vs 大模型:什么场景该用哪个?

RL方向补充:RLHF的scalability确实是个问题。RLAIF是趋势,但AI judge的可靠性还需要更多研究。我们实验室正在探索这个方向。