EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

要約

身体化型 AI はロボット工学における重要なフロンティアであり、ロボットが物理環境で長期にわたるタスクを達成するための一連の動作を計画および実行できます。
この研究では、身体化 AI のエンドツーエンドのマルチモーダル基盤モデルである EmbodiedGPT を導入し、身体化エージェントにマルチモーダルの理解と実行機能を与えます。
これを達成するために、私たちは次の努力をしました: (i) EgoCOT と呼ばれる大規模な具体化された計画データセットを作成します。
このデータセットは、Ego4D データセットから厳選されたビデオと、対応する高品質の言語指示で構成されています。
具体的には、効果的に具体化された計画を立てるために、「思考の連鎖」モードを使用して一連のサブ目標を生成します。
(ii) プレフィックス調整を通じて 7B 大規模言語モデル (LLM) を EgoCOT データセットに適応させることにより、高品質の計画生成のための EmbodiedGPT への効率的なトレーニング アプローチを導入します。
(iii) LLM で生成された計画クエリからタスク関連の特徴を抽出するパラダイムを導入し、高レベルの計画と低レベルの制御の間に閉ループを形成します。
広範な実験により、具体化された計画、具体化された制御、視覚的なキャプション、および視覚的な質問応答を含む、具体化されたタスクに対する EmbodiedGPT の有効性が示されています。
特に、EmbodiedGPT は、より効果的な特徴を抽出することで、具体化された制御タスクの成功率を大幅に高めます。
Ego4D データセットで微調整された BLIP-2 ベースラインと比較して、Franka Kitchen ベンチマークでは 1.6 倍、Meta-World ベンチマークでは 1.3 倍という驚くべき成功率の増加を達成しました。

要約(オリジナル)

Embodied AI is a crucial frontier in robotics, capable of planning and executing action sequences for robots to accomplish long-horizon tasks in physical environments. In this work, we introduce EmbodiedGPT, an end-to-end multi-modal foundation model for embodied AI, empowering embodied agents with multi-modal understanding and execution capabilities. To achieve this, we have made the following efforts: (i) We craft a large-scale embodied planning dataset, termed EgoCOT. The dataset consists of carefully selected videos from the Ego4D dataset, along with corresponding high-quality language instructions. Specifically, we generate a sequence of sub-goals with the ‘Chain of Thoughts’ mode for effective embodied planning. (ii) We introduce an efficient training approach to EmbodiedGPT for high-quality plan generation, by adapting a 7B large language model (LLM) to the EgoCOT dataset via prefix tuning. (iii) We introduce a paradigm for extracting task-related features from LLM-generated planning queries to form a closed loop between high-level planning and low-level control. Extensive experiments show the effectiveness of EmbodiedGPT on embodied tasks, including embodied planning, embodied control, visual captioning, and visual question answering. Notably, EmbodiedGPT significantly enhances the success rate of the embodied control task by extracting more effective features. It has achieved a remarkable 1.6 times increase in success rate on the Franka Kitchen benchmark and a 1.3 times increase on the Meta-World benchmark, compared to the BLIP-2 baseline fine-tuned with the Ego4D dataset.

arxiv情報

著者 Yao Mu,Qinglong Zhang,Mengkang Hu,Wenhai Wang,Mingyu Ding,Jun Jin,Bin Wang,Jifeng Dai,Yu Qiao,Ping Luo
発行日 2023-09-13 23:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク