DIDA: Denoised Imitation Learning based on Domain Adaptation

要約

最適でないデモンストレーションや注意散漫な観察など、質の低いデータセットからスキルを模倣することは、実世界のアプリケーションにおいて一般的である。この問題では、模倣者はデータ収集や送信の過程でしばしば発生するノイズを含むデータから学習する必要がある。これまでのIL手法は、純粋な専門家データに敵対的に学習されたガウスノイズを注入したり、追加的なランキング情報を利用することで、学習されたポリシーの頑健性を向上させているが、LND設定では失敗する可能性がある。上記の問題を緩和するために、我々はDIDA(Denoised Imitation learning based on Domain Adaptation)を提案する。これは、ノイズレベルと専門知識レベルを区別する2つの識別器を設計し、特徴エンコーダがタスクに関連するがドメインにとらわれない表現を学習することを容易にする。MuJoCoを用いた実験の結果、DIDAが様々な種類のノイズを含むデモからの困難な模倣タスクを扱うことに成功し、ほとんどのベースライン手法を凌駕することが実証された。

要約(オリジナル)

Imitating skills from low-quality datasets, such as sub-optimal demonstrations and observations with distractors, is common in real-world applications. In this work, we focus on the problem of Learning from Noisy Demonstrations (LND), where the imitator is required to learn from data with noise that often occurs during the processes of data collection or transmission. Previous IL methods improve the robustness of learned policies by injecting an adversarially learned Gaussian noise into pure expert data or utilizing additional ranking information, but they may fail in the LND setting. To alleviate the above problems, we propose Denoised Imitation learning based on Domain Adaptation (DIDA), which designs two discriminators to distinguish the noise level and expertise level of data, facilitating a feature encoder to learn task-related but domain-agnostic representations. Experiment results on MuJoCo demonstrate that DIDA can successfully handle challenging imitation tasks from demonstrations with various types of noise, outperforming most baseline methods.

arxiv情報

著者 Kaichen Huang,Hai-Hang Sun,Shenghua Wan,Minghao Shao,Shuai Feng,Le Gan,De-Chuan Zhan
発行日 2024-04-04 11:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク