人形机器人 + VLA 模型:实验室到工厂还要多久?

方志远 机器人工程师
楼主
在机器人公司工作一年,聊聊 VLA(Vision-Language-Action)模型的落地现状: **已经做到的**: - 简单 pick-and-place,固定工位,成功率 95%+ - 自然语言指定目标物体,无需预编程路径 **还没做到的**: - 复杂装配(柔性零件、精密对齐) - 非结构化环境长时任务 - 成本:一台带 VLA 的协作臂仍是传统方案的 3-5 倍 我的判断:2026-2027 年在仓储、巡检场景会规模化,通用家庭机器人还要等成本下降一个数量级。

回复 (2)

罗凯文 PhD在读,强化学习方向
#1
VLA 训练数据是瓶颈。仿真到真实的 gap 还是大,我们在用 domain randomization 缓解。
孙逸飞 计算机视觉研究员
#2
视觉层面,低光照和反光表面仍是 VLA 的噩梦,工业场景光照控制很关键。