要約
ロボットがデータ効率の高い方法で新しい視覚運動スキルを学習できるようにすることは、無数の課題を伴う未解決の問題のままです。
この問題に取り組むための一般的なパラダイムは、多くの動作が含まれるラベルのない大規模なデータセットを活用し、タスク固有の人による少量の監視 (つまり、介入やデモンストレーション) を使用してポリシーを特定のタスクに適応させることです。
ただし、タスク固有の狭い監視をどのように活用し、オフライン データとのバランスを取るのが最善であるかは未解決の問題のままです。
この研究における私たちの重要な洞察は、タスク固有のデータはエージェントのトレーニングに使用する新しいデータを提供するだけでなく、エージェントが学習に使用する必要がある以前のデータのタイプも通知できるということです。
具体的には、少量の下流専門家データを使用して、オフラインのラベルなしデータセット (多くの次善的な動作を含む) から関連する動作を選択的にクエリするシンプルなアプローチを提案します。
その後、エージェントは専門家とクエリされたデータに基づいて共同トレーニングを受けます。
私たちのメソッドがタスクへの関連する遷移のみをクエリすることを学習し、最適ではないデータやタスクに無関係なデータを除外していることがわかります。
そうすることで、単純にデータを混合したり、タスク固有のデータのみを使用したりする場合と比較して、タスク固有のデータとオフライン データの組み合わせからより効果的に学習することができます。
さらに、画像からのシミュレートされたロボット操作タスクと実際のロボット操作タスク全体で、単純なクエリ手法が、より複雑な目標条件付き手法よりも 20% 優れていることがわかりました。
ビデオとコードについては、https://sites.google.com/view/behaviorretrieval を参照してください。
要約(オリジナル)
Enabling robots to learn novel visuomotor skills in a data-efficient manner remains an unsolved problem with myriad challenges. A popular paradigm for tackling this problem is through leveraging large unlabeled datasets that have many behaviors in them and then adapting a policy to a specific task using a small amount of task-specific human supervision (i.e. interventions or demonstrations). However, how best to leverage the narrow task-specific supervision and balance it with offline data remains an open question. Our key insight in this work is that task-specific data not only provides new data for an agent to train on but can also inform the type of prior data the agent should use for learning. Concretely, we propose a simple approach that uses a small amount of downstream expert data to selectively query relevant behaviors from an offline, unlabeled dataset (including many sub-optimal behaviors). The agent is then jointly trained on the expert and queried data. We observe that our method learns to query only the relevant transitions to the task, filtering out sub-optimal or task-irrelevant data. By doing so, it is able to learn more effectively from the mix of task-specific and offline data compared to naively mixing the data or only using the task-specific data. Furthermore, we find that our simple querying approach outperforms more complex goal-conditioned methods by 20% across simulated and real robotic manipulation tasks from images. See https://sites.google.com/view/behaviorretrieval for videos and code.
arxiv情報
著者 | Maximilian Du,Suraj Nair,Dorsa Sadigh,Chelsea Finn |
発行日 | 2023-05-13 00:05:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google