要約
オープン環境における自律ロボットのナビゲーションと操作には、閉ループのフィードバックによる推論と再計画が必要です。
我々は、実世界のシナリオにおけるオープンエンド推論と適応計画のために GPT-4V ビジョン言語基盤モデルを利用する最初の閉ループ フレームワークである COME-robot を紹介します。
私たちは、ロボットの探索、ナビゲーション、および操作のためのアクション プリミティブのライブラリを細心の注意を払って構築し、タスク計画における GPT-4V の呼び出し可能な実行モジュールとして機能します。
これらのモジュールに加えて、GPT-4V は、マルチモーダルな推論を実行し、コードでアクション ポリシーを生成し、タスクの進行状況を確認し、再計画のためのフィードバックを提供できる頭脳として機能します。
このような設計により、COME ロボットは、(i) 積極的に環境を認識し、(ii) 状況に応じた推論を実行し、(iii) 障害から回復することができます。
8 つの困難な現実世界の卓上および操作タスクを含む包括的な実験を通じて、COME ロボットは、最先端のベースライン手法と比較してタスクの成功率が大幅に向上 (~25%) することを実証しました。
さらに、COME ロボットの設計が障害回復、自由形式の指示に従って、長期的なタスク計画をどのように促進するかを解明するために、包括的な分析を実施します。
要約(オリジナル)
Autonomous robot navigation and manipulation in open environments require reasoning and replanning with closed-loop feedback. We present COME-robot, the first closed-loop framework utilizing the GPT-4V vision-language foundation model for open-ended reasoning and adaptive planning in real-world scenarios. We meticulously construct a library of action primitives for robot exploration, navigation, and manipulation, serving as callable execution modules for GPT-4V in task planning. On top of these modules, GPT-4V serves as the brain that can accomplish multimodal reasoning, generate action policy with code, verify the task progress, and provide feedback for replanning. Such design enables COME-robot to (i) actively perceive the environments, (ii) perform situated reasoning, and (iii) recover from failures. Through comprehensive experiments involving 8 challenging real-world tabletop and manipulation tasks, COME-robot demonstrates a significant improvement in task success rate (~25%) compared to state-of-the-art baseline methods. We further conduct comprehensive analyses to elucidate how COME-robot’s design facilitates failure recovery, free-form instruction following, and long-horizon task planning.
arxiv情報
著者 | Peiyuan Zhi,Zhiyuan Zhang,Muzhi Han,Zeyu Zhang,Zhitian Li,Ziyuan Jiao,Baoxiong Jia,Siyuan Huang |
発行日 | 2024-04-16 02:01:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google