AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation

要約

我々は、積み木を使って笑顔を作るなど、ロボット操作タスクにおける高度な認知能力を学習するための新しいフレームワークを提案します。
これらのタスクには複雑な複数ステップの推論が含まれることが多く、人間の指示 (例: スマイリーフェイスの作成) とロボットの動作 (例: エンドエフェクターの動き) を結び付けるペアのデータが限られているため、重大な課題が生じます。
既存のアプローチでは、高レベルの命令を単純なサブタスク プランに分解し、低レベルの制御モデルを使用して段階的に実行する開ループ パラダイムを採用することで、この課題を軽減しています。
ただし、これらのアプローチでは、複数ステップの推論における瞬時の観察が不足しており、最適とはいえない結果が得られます。
この問題に対処するために、大規模言語モデル (LLM) によって認知ロボット データセットを自動的に収集することを提案します。
結果として得られるデータセット AlphaBlock は、複数ステップのテキスト プランとペアの観察シーケンスからなる 35 の包括的な高レベルのタスクで構成されます。
効率的なデータ収集を可能にするために、私たちは精巧なマルチラウンドプロンプト設計を採用しており、広範な人間の関与による負担を効果的に軽減します。
さらに、画像観察を入力として受け取ることによって自己回帰的に計画を生成する、閉ループのマルチモーダル具体化計画モデルを提案します。
効果的な学習を促進するために、フリーズされたビジュアル エンコーダーと LLM を備えた MiniGPT-4 を活用し、追加のビジョン アダプターと Q フォーマーを微調整して、操作タスクのきめ細かい空間認識を可能にします。
既存の開ループ手法および閉ループ手法に対する優位性を検証するための実験を実施し、ChatGPT および GPT-4 ベースのロボット タスクと比較して成功率が 21.4% および 14.5% という大幅な向上を達成しました。
実際のデモは https://www.youtube.com/watch?v=ayAzID1_qQk でご覧いただけます。

要約(オリジナル)

We propose a novel framework for learning high-level cognitive capabilities in robot manipulation tasks, such as making a smiley face using building blocks. These tasks often involve complex multi-step reasoning, presenting significant challenges due to the limited paired data connecting human instructions (e.g., making a smiley face) and robot actions (e.g., end-effector movement). Existing approaches relieve this challenge by adopting an open-loop paradigm decomposing high-level instructions into simple sub-task plans, and executing them step-by-step using low-level control models. However, these approaches are short of instant observations in multi-step reasoning, leading to sub-optimal results. To address this issue, we propose to automatically collect a cognitive robot dataset by Large Language Models (LLMs). The resulting dataset AlphaBlock consists of 35 comprehensive high-level tasks of multi-step text plans and paired observation sequences. To enable efficient data acquisition, we employ elaborated multi-round prompt designs that effectively reduce the burden of extensive human involvement. We further propose a closed-loop multi-modal embodied planning model that autoregressively generates plans by taking image observations as input. To facilitate effective learning, we leverage MiniGPT-4 with a frozen visual encoder and LLM, and finetune additional vision adapter and Q-former to enable fine-grained spatial perception for manipulation tasks. We conduct experiments to verify the superiority over existing open and closed-loop methods, and achieve a significant increase in success rate by 21.4% and 14.5% over ChatGPT and GPT-4 based robot tasks. Real-world demos are shown in https://www.youtube.com/watch?v=ayAzID1_qQk .

arxiv情報

著者 Chuhao Jin,Wenhui Tan,Jiange Yang,Bei Liu,Ruihua Song,Limin Wang,Jianlong Fu
発行日 2023-05-30 09:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク