要約
汎化は、頑健なロボット学習システムにとって最も重要な課題の一つである。最近提案されたアプローチは、新しい物体、意味概念、または視覚的分布の変化に対する汎化において有望であるが、新しいタスクに対する汎化は依然として困難である。例えば、ピックアンドプレースのタスクで学習された言語条件付き方針は、折りたたみのアーム軌道がピックアンドプレースと類似していたとしても、折りたたみタスクに汎化することはできない。我々の重要な洞察は、タスクを大まかな軌跡スケッチで表現すれば、このような汎化が可能になるということである。我々は、RT-Trajectoryと呼ぶ、このような大まかな軌跡スケッチを用いた、実用的で、指定が容易で、他の方法では困難な新しいタスクを効果的に実行することを可能にするポリシー条件付け法を提案する。我々は、軌跡スケッチが、低レベルの動き中心のガイダンスを表現するのに十分詳細である一方で、学習されたポリシーが状況的な視覚的観察の文脈で軌跡スケッチを解釈するのに十分粗いことの間でバランスをとることを見出す。さらに、軌跡スケッチは、ロボットの方針と通信するための有用なインターフェースを提供することができることを示す。軌跡スケッチは、図面やビデオのような単純な人間の入力や、最新の画像生成法やウェイポイント生成法のような自動化された手法によって指定することができる。我々は、RT-Trajectoryを実世界の様々なロボットタスク上でスケール評価し、RT-Trajectoryは、同じ学習データが与えられた場合、言語条件付きポリシーやゴール条件付きポリシーと比較して、より幅広いタスクを実行できることを見出した。
要約(オリジナル)
Generalization remains one of the most important desiderata for robust robot learning systems. While recently proposed approaches show promise in generalization to novel objects, semantic concepts, or visual distribution shifts, generalization to new tasks remains challenging. For example, a language-conditioned policy trained on pick-and-place tasks will not be able to generalize to a folding task, even if the arm trajectory of folding is similar to pick-and-place. Our key insight is that this kind of generalization becomes feasible if we represent the task through rough trajectory sketches. We propose a policy conditioning method using such rough trajectory sketches, which we call RT-Trajectory, that is practical, easy to specify, and allows the policy to effectively perform new tasks that would otherwise be challenging to perform. We find that trajectory sketches strike a balance between being detailed enough to express low-level motion-centric guidance while being coarse enough to allow the learned policy to interpret the trajectory sketch in the context of situational visual observations. In addition, we show how trajectory sketches can provide a useful interface to communicate with robotic policies: they can be specified through simple human inputs like drawings or videos, or through automated methods such as modern image-generating or waypoint-generating methods. We evaluate RT-Trajectory at scale on a variety of real-world robotic tasks, and find that RT-Trajectory is able to perform a wider range of tasks compared to language-conditioned and goal-conditioned policies, when provided the same training data.
arxiv情報
著者 | Jiayuan Gu,Sean Kirmani,Paul Wohlhart,Yao Lu,Montserrat Gonzalez Arenas,Kanishka Rao,Wenhao Yu,Chuyuan Fu,Keerthana Gopalakrishnan,Zhuo Xu,Priya Sundaresan,Peng Xu,Hao Su,Karol Hausman,Chelsea Finn,Quan Vuong,Ted Xiao |
発行日 | 2023-11-06 05:53:08+00:00 |
arxivサイト | arxiv_id(pdf) |