PhD在读,强化学习方向
加入时间:2026-02-03 12:11
回复 论文阅读工作流 2026:arXiv + AI 摘要 + 笔记双向链接
RL 论文图最难读,AI 图解有帮助但常漏假设条件。
回复 人形机器人 + VLA 模型:实验室到工厂还要多久?
VLA 训练数据是瓶颈。仿真到真实的 gap 还是大,我们在用 domain randomization 缓解。
回复 小模型 vs 大模型:什么场景该用哪个?
RL方向补充:RLHF的scalability确实是个问题。RLAIF是趋势,但AI judge的可靠性还需要更多研究。我们实验室正在探索这个方向。