Extraneousness-Aware Imitation Learning

要約

視覚的模倣学習は、デモンストレーションからスキルを習得するための効果的なフレームワークを提供します。
ただし、通常、提供されるデモンストレーションの品質は、エージェントが必要なスキルを習得する能力に大きく影響します。
したがって、標準的な視覚的模倣学習では、最適に近いデモンストレーションを前提としていますが、これは費用がかかるか、収集が困難な場合があります。
以前の作品は、騒々しいデモンストレーションから学ぶことを提案しています。
ただし、ノイズは通常、一様分布またはガウス分布などのコンテキストに依存しない分布に従うと想定されています。
このホワイト ペーパーでは、別の重要なまだ調査されていない設定を検討します。これは、タスクとは無関係であるが局所的に一貫性のあるセグメントをデモンストレーションで使用した模倣学習です (たとえば、料理のチュートリアルでジャガイモを切りながら汗を拭くなど)。
このようなノイズは現実世界のデータでは一般的であり、それらを「無関係な」セグメントと呼びます。
この問題に取り組むために、無関係なサブシーケンスを持つ第三者のデモンストレーションから視覚運動のポリシーを学習する自己教師ありアプローチである、Extraneousness-Aware Imitation Learning (EIL) を導入します。
EIL は、アクション条件付き観察の埋め込みを自己教師ありの方法で学習し、無関係なものを除外しながら、視覚的なデモンストレーション全体でタスク関連の観察を取得します。
実験結果は、EIL が強力なベースラインよりも優れており、シミュレートされたロボット制御タスクと実際のロボット制御タスクの両方で完全なデモンストレーションでトレーニングされたポリシーに匹敵するポリシーを達成することを示しています。
プロジェクト ページは https://sites.google.com/view/eil-website にあります。

要約(オリジナル)

Visual imitation learning provides an effective framework to learn skills from demonstrations. However, the quality of the provided demonstrations usually significantly affects the ability of an agent to acquire desired skills. Therefore, the standard visual imitation learning assumes near-optimal demonstrations, which are expensive or sometimes prohibitive to collect. Previous works propose to learn from noisy demonstrations; however, the noise is usually assumed to follow a context-independent distribution such as a uniform or gaussian distribution. In this paper, we consider another crucial yet underexplored setting — imitation learning with task-irrelevant yet locally consistent segments in the demonstrations (e.g., wiping sweat while cutting potatoes in a cooking tutorial). We argue that such noise is common in real world data and term them ‘extraneous’ segments. To tackle this problem, we introduce Extraneousness-Aware Imitation Learning (EIL), a self-supervised approach that learns visuomotor policies from third-person demonstrations with extraneous subsequences. EIL learns action-conditioned observation embeddings in a self-supervised manner and retrieves task-relevant observations across visual demonstrations while excluding the extraneous ones. Experimental results show that EIL outperforms strong baselines and achieves comparable policies to those trained with perfect demonstration on both simulated and real-world robot control tasks. The project page can be found at https://sites.google.com/view/eil-website.

arxiv情報

著者 Ray Chen Zheng,Kaizhe Hu,Zhecheng Yuan,Boyuan Chen,Huazhe Xu
発行日 2023-03-01 08:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク