要約
実世界の多くの領域では専門家データが不足しているため、不完全なデモンストレーションを伴うオフライン模倣学習 (IL) がますます注目を集めています。
このシナリオの基本的な問題は、ノイズの多いデータからポジティブな動作を抽出する方法です。
一般に、この問題に対する現在のアプローチは、特定の専門家のデモンストレーションとの状態アクションの類似性に基づいて構築されたデータを選択し、専門家のデモンストレーションから逸脱する (潜在的に豊富な) $\textit{多様な}$ 状態アクション内の貴重な情報を無視しています。
この論文では、結果の状態に基づいてポジティブな行動を特定する、シンプルかつ効果的なデータ選択方法を紹介します。これは、ダイナミクス情報の明示的な利用と、専門家と有益な多様な行動の両方の効果的な抽出を可能にする、より有益な基準です。
さらに、専門家と選択されたデータを正しく活用できる軽量の動作クローン作成アルゴリズムを考案します。
実験では、継続制御タスクやビジョンベースのタスクなど、一連の複雑で高次元のオフライン IL ベンチマークでメソッドを評価します。
結果は、私たちの手法が $\textbf{20/21}$ ベンチマークで既存の手法を通常 $\textbf{2-5x}$ 上回る最先端のパフォーマンスを実現し、同時に Behavior と同等の実行時間を維持していることを示しています。
クローン作成 ($\texttt{BC}$)。
要約(オリジナル)
Offline Imitation Learning (IL) with imperfect demonstrations has garnered increasing attention owing to the scarcity of expert data in many real-world domains. A fundamental problem in this scenario is how to extract positive behaviors from noisy data. In general, current approaches to the problem select data building on state-action similarity to given expert demonstrations, neglecting precious information in (potentially abundant) $\textit{diverse}$ state-actions that deviate from expert ones. In this paper, we introduce a simple yet effective data selection method that identifies positive behaviors based on their resultant states — a more informative criterion enabling explicit utilization of dynamics information and effective extraction of both expert and beneficial diverse behaviors. Further, we devise a lightweight behavior cloning algorithm capable of leveraging the expert and selected data correctly. In the experiments, we evaluate our method on a suite of complex and high-dimensional offline IL benchmarks, including continuous-control and vision-based tasks. The results demonstrate that our method achieves state-of-the-art performance, outperforming existing methods on $\textbf{20/21}$ benchmarks, typically by $\textbf{2-5x}$, while maintaining a comparable runtime to Behavior Cloning ($\texttt{BC}$).
arxiv情報
著者 | Sheng Yue,Jiani Liu,Xingyuan Hua,Ju Ren,Sen Lin,Junshan Zhang,Yaoxue Zhang |
発行日 | 2024-05-30 17:15:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google