RoboDreamer: Learning Compositional World Models for Robot Imagination

要約

テキストからビデオへのモデルは、ロボットによる意思決定において大きな可能性を示しており、正確な環境シミュレーションだけでなく、将来の行動の現実的な計画の想像を可能にします。
ただし、このようなモデルの 1 つの大きな問題は一般化です。モデルは、トレーニング時に見られたものと同様の言語命令に従ってビデオを合成することに限定されています。
これは、新しい環境でこれまで見たことのないタスクを解決するために、オブジェクトとアクションの見たことのない組み合わせの計画を統合するための強力な世界モデルを求める意思決定において、大きな制限となります。
この問題を解決するために、ビデオ生成を因数分解することで構成世界モデルを学習する革新的なアプローチである RoboDreamer を紹介します。
私たちは言語の自然な構成性を利用して、命令を一連の下位レベルのプリミティブに解析し、ビデオを生成するために一連のモデルを条件付けします。
この因数分解によって、以前に見たコンポーネントの組み合わせとして新しい自然言語命令を定式化できるため、構成的な一般化がどのように自然に可能になるかを説明します。
さらに、このような因数分解によってマルチモーダルな目標を追加できるようになり、自然言語命令と目標画像の両方が与えられた場合に生成したいビデオを指定できるようにする方法を示します。
私たちのアプローチは、RT-X の目に見えない目標に基づいてビデオ プランを適切に合成でき、シミュレーションでロボットの実行を成功させることができ、ビデオ生成に対するモノリシック ベースライン アプローチを大幅に上回ります。

要約(オリジナル)

Text-to-video models have demonstrated substantial potential in robotic decision-making, enabling the imagination of realistic plans of future actions as well as accurate environment simulation. However, one major issue in such models is generalization — models are limited to synthesizing videos subject to language instructions similar to those seen at training time. This is heavily limiting in decision-making, where we seek a powerful world model to synthesize plans of unseen combinations of objects and actions in order to solve previously unseen tasks in new environments. To resolve this issue, we introduce RoboDreamer, an innovative approach for learning a compositional world model by factorizing the video generation. We leverage the natural compositionality of language to parse instructions into a set of lower-level primitives, which we condition a set of models on to generate videos. We illustrate how this factorization naturally enables compositional generalization, by allowing us to formulate a new natural language instruction as a combination of previously seen components. We further show how such a factorization enables us to add additional multimodal goals, allowing us to specify a video we wish to generate given both natural language instructions and a goal image. Our approach can successfully synthesize video plans on unseen goals in the RT-X, enables successful robot execution in simulation, and substantially outperforms monolithic baseline approaches to video generation.

arxiv情報

著者 Siyuan Zhou,Yilun Du,Jiaben Chen,Yandong Li,Dit-Yan Yeung,Chuang Gan
発行日 2024-04-18 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク