人形机器人 + VLA 模型:实验室到工厂还要多久?
在机器人公司工作一年,聊聊 VLA(Vision-Language-Action)模型的落地现状:
**已经做到的**:
- 简单 pick-and-place,固定工位,成功率 95%+
- 自然语言指定目标物体,无需预编程路径
**还没做到的**:
- 复杂装配(柔性零件、精密对齐)
- 非结构化环境长时任务
- 成本:一台带 VLA 的协作臂仍是传统方案的 3-5 倍
我的判断:2026-2027 年在仓储、巡检场景会规模化,通用家庭机器人还要等成本下降一个数量级。
回复 (2)
VLA 训练数据是瓶颈。仿真到真实的 gap 还是大,我们在用 domain randomization 缓解。
视觉层面,低光照和反光表面仍是 VLA 的噩梦,工业场景光照控制很关键。
登录 后参与讨论