Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning

要約

プロンプトベースの学習は、大規模言語モデルの大きな成功 (LLM) に貢献する魅力的なパラダイムとして実証されています。
言語タスクでの成功に触発された既存の研究では、具体的な指示に従って、タスクを計画する際に LLM を活用しています。
この研究では、視覚信号とテキストの説明を交互に挿入して、マルチモーダルなプロンプトを理解できるようにロボットをトレーニングするという問題に取り組みます。
この種のタスクは、視覚信号と言語信号の間の相互接続と相補性を理解するロボットの能力に大きな課題をもたらします。
この研究では、マルチタスクの専門家の軌跡からマルチモーダルなプロンプトを使用してロボット操作を実行するためのポリシーを学習する効果的なフレームワークを紹介します。
私たちのメソッドは、逆ダイナミクスの事前トレーニングとマルチタスクの微調整を実行する 2 段階のトレーニング パイプラインで構成されています。
マルチモーダルの理解を容易にするために、視覚入力への残りの接続を使用して事前トレーニング済み LM を強化することでマルチモーダル プロンプト エンコーダーを設計し、アクション次元間の依存関係をモデル化します。
私たちは経験的に、VIMA-BENCH でのメソッドの有効性を評価し、新しい最先端のメソッド (成功率の 10% 向上) を確立します。
さらに、私たちのモデルが優れたコンテキスト内学習能力を示すことを実証します。
プロジェクト ページ: \url{https://midas-icml.github.io/}。

要約(オリジナル)

Prompt-based learning has been demonstrated as a compelling paradigm contributing to large language models’ tremendous success (LLMs). Inspired by their success in language tasks, existing research has leveraged LLMs in embodied instruction following and task planning. In this work, we tackle the problem of training a robot to understand multimodal prompts, interleaving vision signals with text descriptions. This type of task poses a major challenge to robots’ capability to understand the interconnection and complementarity between vision and language signals. In this work, we introduce an effective framework that learns a policy to perform robot manipulation with multimodal prompts from multi-task expert trajectories. Our methods consist of a two-stage training pipeline that performs inverse dynamics pretraining and multi-task finetuning. To facilitate multimodal understanding, we design our multimodal prompt encoder by augmenting a pretrained LM with a residual connection to the visual input and model the dependencies among action dimensions. Empirically, we evaluate the efficacy of our method on the VIMA-BENCH and establish a new state-of-the-art (10% improvement in success rate). Moreover, we demonstrate that our model exhibits remarkable in-context learning ability. Project page: \url{https://midas-icml.github.io/}.

arxiv情報

著者 Jiachen Li,Qiaozi Gao,Michael Johnston,Xiaofeng Gao,Xuehai He,Suhaila Shakiah,Hangjie Shi,Reza Ghanadan,William Yang Wang
発行日 2024-05-28 01:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク