VIMA: General Robot Manipulation with Multimodal Prompts

要約

プロンプトベースの学習は、自然言語処理における成功したパラダイムとして浮上しており、単一の汎用言語モデルに、入力プロンプトで指定された任意のタスクを実行するように指示できます。
しかし、ロボット工学におけるタスクの指定には、単発のデモンストレーションを模倣する、言語の指示に従う、視覚的な目標を達成するなど、さまざまな形があります。
多くの場合、これらは別のタスクとみなされ、特殊なモデルによって処理されます。
我々は、広範囲のロボット操作タスクが、テキストトークンと視覚トークンを交互に配置したマルチモーダルプロンプトで表現できることを示します。
したがって、私たちは、マルチモーダルプロンプトを備えた何千もの手続き的に生成されたテーブルトップタスク、模倣学習のための60万以上の専門家の軌跡、および体系的な一般化のための4レベルの評価プロトコルで構成される新しいシミュレーションベンチマークを開発します。
これらのプロンプトを処理し、運動動作を自己回帰的に出力する、トランスベースのロボット エージェント VIMA を設計します。
VIMA は、強力なモデルのスケーラビリティとデータ効率を実現するレシピを備えています。
同じトレーニング データが与えられた場合、最も困難なゼロショット汎化設定では、代替デザインよりも最大 $2.9\times$ のタスク成功率で優れたパフォーマンスを発揮します。
トレーニング データが $10\time$ 少ないにもかかわらず、VIMA は競合する最良のバリアントよりも $2.7\time$ 優れたパフォーマンスを示します。
コードとビデオのデモは https://vimalabs.github.io/ で入手できます。

要約(オリジナル)

Prompt-based learning has emerged as a successful paradigm in natural language processing, where a single general-purpose language model can be instructed to perform any task specified by input prompts. Yet task specification in robotics comes in various forms, such as imitating one-shot demonstrations, following language instructions, and reaching visual goals. They are often considered different tasks and tackled by specialized models. We show that a wide spectrum of robot manipulation tasks can be expressed with multimodal prompts, interleaving textual and visual tokens. Accordingly, we develop a new simulation benchmark that consists of thousands of procedurally-generated tabletop tasks with multimodal prompts, 600K+ expert trajectories for imitation learning, and a four-level evaluation protocol for systematic generalization. We design a transformer-based robot agent, VIMA, that processes these prompts and outputs motor actions autoregressively. VIMA features a recipe that achieves strong model scalability and data efficiency. It outperforms alternative designs in the hardest zero-shot generalization setting by up to $2.9\times$ task success rate given the same training data. With $10\times$ less training data, VIMA still performs $2.7\times$ better than the best competing variant. Code and video demos are available at https://vimalabs.github.io/

arxiv情報

著者 Yunfan Jiang,Agrim Gupta,Zichen Zhang,Guanzhi Wang,Yongqiang Dou,Yanjun Chen,Li Fei-Fei,Anima Anandkumar,Yuke Zhu,Linxi Fan
発行日 2023-05-28 07:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク