This&That: Language-Gesture Controlled Video Generation for Robot Planning

要約

私たちは、This&That と呼ばれる、幅広いタスクのコミュニケーション、計画、実行のためのロボット学習手法を提案します。
豊富な物理的および意味的コンテキストを含むインターネット規模のデータでトレーニングされたビデオ生成モデルの力を活用することで、一般的なタスクのロボット計画を実現します。
この研究では、ビデオベースのプランニングにおける 3 つの基本的な課題に取り組みます。1) 簡単な人間の指示による明確なタスクのコミュニケーション、2) ユーザーの意図を尊重した制御可能なビデオ生成、3) 視覚的なプランニングをロボットの動作に変換する。
我々は、特に複雑で不確実な環境において、既存の言語のみの方法よりも単純かつ明瞭なビデオを生成するための言語ジェスチャ調整を提案します。
次に、ビデオ計画をシームレスに組み込んだ動作クローン設計を提案します。
This&That は、上記の 3 つの課題に対処するための最先端の有効性を実証し、一般化可能なタスクの計画と実行のための中間表現としてビデオ生成を使用することを正当化します。
プロジェクトの Web サイト: https://cfeng16.github.io/this-and-that/。

要約(オリジナル)

We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.

arxiv情報

著者 Boyang Wang,Nikhil Sridhar,Chao Feng,Mark Van der Merwe,Adam Fishman,Nima Fazeli,Jeong Joon Park
発行日 2024-07-08 00:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク