Copyright 2005-2025 王晨云 版權所有 京ICP備20051637號-1
機器人與智能體領域,一個老大難問題是:當你讓機器人 “把黃碗放進白色空籃子” 或 “從微波爐里把牛奶取出來放到餐桌上” 時,它不僅要看懂環境,更要解釋指令、規劃路徑 / 可操作區域,并把這些推理落實為準確的動作。目前,很多 VLA(Vision-Language-Action)模型仍傾向直接輸出動作,缺乏對可供性(affordance)與軌跡(trajectory)幾何關系的顯式推理,一旦遇到顏色相近、目標重復或容器多選等場景,就容易出錯。VLA-R1 的目標,不僅把 “會想” 這步補上,而且通過強化學習進一步加強執行動作的準確性,讓機器人解釋清楚再去準確執行
VLA-R1 出場:它是什么?
