RT-H: Action Hierarchies Using Language

要約

言語は、複雑な概念を消化しやすい断片に分解する方法を提供する。ロボットの模倣学習における最近の研究では、視覚的な観察と言語で指定された高レベルのタスクから行動を予測する言語条件付きポリシーを使用している。これらの方法は、マルチタスクデータセットにおいて、意味的に類似したタスク(例えば「コーラの缶を摘む」と「リンゴを摘む」)間でデータを共有するために自然言語の構造を活用する。しかし、タスクが意味的に多様になるにつれて(例えば「コーラの缶を摘む」と「コップを注ぐ」)、タスク間でデータを共有することが難しくなり、高レベルのタスクをアクションにマッピングする学習には、より多くの実証データが必要になる。タスクとアクションの橋渡しをするために、我々の洞察は、ロボットにアクションの言語を教え、「腕を前に動かす」といった、より細かいフレーズで低レベルのモーションを記述することである。タスクとアクションの中間段階としてこれらの言語モーションを予測することで、一見異なるタスク間で共有される低レベルモーションの構造をポリシーに学習させる。さらに、言語動作を条件とするポリシーは、実行中に人間が指定した言語動作によって容易に修正することができる。これにより、人間の言語介入から学習できる柔軟なポリシーの新しいパラダイムが可能になる。我々の手法RT-Hは、言語動作を用いて行動階層を構築する。まず言語動作の予測を学習し、これと高レベルのタスクを条件として、全ての段階で視覚的文脈を用いながら行動を予測する。我々は、RT-Hがこの言語-行動階層を活用し、マルチタスクデータセットを効果的に利用することで、より頑健で柔軟な方針を学習することを示す。これらの方針は、言語介入に応答することを可能にするだけでなく、そのような介入から学習することができ、遠隔操作介入から学習する方法を凌駕することを示す。我々のウェブサイトとビデオはhttps://rt-hierarchy.github.io。

要約(オリジナル)

Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., ‘pick coke can’ and ‘pick an apple’) in multi-task datasets. However, as tasks become more semantically diverse (e.g., ‘pick coke can’ and ‘pour cup’), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like ‘move arm forward’. Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io.

arxiv情報

著者 Suneel Belkhale,Tianli Ding,Ted Xiao,Pierre Sermanet,Quon Vuong,Jonathan Tompson,Yevgen Chebotar,Debidatta Dwibedi,Dorsa Sadigh
発行日 2024-06-01 01:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク