要約
タイトル:Behavior Retrieval:ラベルなしデータセットへのクエリによるフューショット模倣学習
要約:
– ロボットがデータ効率的な方法で新しい視覚運動スキルを学ぶことを可能にすることは、さまざまな課題を抱えた未解決の問題である。
– 大規模なラベルなしデータセットを活用して多くの行動を学び、その後、少量の特定のタスクに関する人間の監修(介入またはデモンストレーション)を用いて、特定のタスクに適応する方針を適応することにより、この問題に取り組むための人気のパラダイムがある。
– 特定のタスクに関連するデータは、エージェントのトレーニングに新しいデータを提供するだけでなく、エージェントが学習するために使用する先行データのタイプを知らせることができる。
– 本研究の主な洞察は、オフラインでラベルのないデータセットから関連する振る舞いを選択的にクエリする小量の下流の専門家のデータを使用する単純なアプローチを提案することである。
– エージェントは、専門家とクエリされたデータで共同でトレーニングされる。この方法により、タスクに関連する遷移のみをクエリすることができ、非最適なデータをフィルタリングし、ミックスしたデータよりもタスク固有のデータだけを使用するよりも効果的に学習することができる。
– また、より複雑なゴール条件の方法よりも、シミュレーションされたおよび実際のロボット操作タスクで20%以上の性能向上が見られる。
– 詳細は、https://sites.google.com/view/behaviorretrievalで公開されている動画とコードを参照してください。
要約(オリジナル)
Enabling robots to learn novel visuomotor skills in a data-efficient manner remains an unsolved problem with myriad challenges. A popular paradigm for tackling this problem is through leveraging large unlabeled datasets that have many behaviors in them and then adapting a policy to a specific task using a small amount of task-specific human supervision (i.e. interventions or demonstrations). However, how best to leverage the narrow task-specific supervision and balance it with offline data remains an open question. Our key insight in this work is that task-specific data not only provides new data for an agent to train on but can also inform the type of prior data the agent should use for learning. Concretely, we propose a simple approach that uses a small amount of downstream expert data to selectively query relevant behaviors from an offline, unlabeled dataset (including many sub-optimal behaviors). The agent is then jointly trained on the expert and queried data. We observe that our method learns to query only the relevant transitions to the task, filtering out sub-optimal or task-irrelevant data. By doing so, it is able to learn more effectively from the mix of task-specific and offline data compared to naively mixing the data or only using the task-specific data. Furthermore, we find that our simple querying approach outperforms more complex goal-conditioned methods by 20% across simulated and real robotic manipulation tasks from images. See https://sites.google.com/view/behaviorretrieval for videos and code.
arxiv情報
著者 | Maximilian Du,Suraj Nair,Dorsa Sadigh,Chelsea Finn |
発行日 | 2023-04-18 05:42:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI