要約
敵対的模倣学習 (AIL) は、さまざまな模倣学習 (IL) アプリケーションにわたる主要なフレームワークとして際立っており、Discriminator Actor Critic (DAC) (Kostrikov et al., 2019) は、サンプルの改善におけるオフポリシー学習アルゴリズムの有効性を実証しています。
高次元の観察に対する効率性と拡張性。
DAC の経験的な成功にもかかわらず、本来の AIL の目的はオンポリシーであり、DAC によるオフポリシートレーニングのその場限りの適用は、模倣の成功を保証するものではありません (Kostrikov et al., 2019; 2020)。
ValueDICE (Kostrikov et al., 2020) などのフォローアップ研究では、完全にポリシーから外れた AIL 目標を導き出すことで、この問題に取り組んでいます。
代わりに、この研究では、ブースティングのフレームワークを介して、新しく原理に基づいた AIL アルゴリズムを開発します。
ブースティングと同様に、私たちの新しいアルゴリズムである AILBoost は、適切に重み付けされた弱学習器 (ポリシー) のアンサンブルを維持し、アンサンブルの分布とエキスパート ポリシーの間の最大の不一致を目撃する識別器をトレーニングします。
アンサンブルによって引き起こされる状態アクションの分布を表す重み付けされた再生バッファーを維持し、これまでに収集されたデータ全体を使用して弁別器をトレーニングできるようにします。
重み付けされたリプレイ バッファでは、古いポリシーからのデータの寄与は、ブースティング フレームワークに基づいて計算された重みで適切に割り引かれます。
経験的に、DeepMind Control Suite からコントローラーの状態ベースの環境とピクセルベースの環境の両方でアルゴリズムを評価します。
AILBoost は、両方のタイプの環境で DAC よりも優れたパフォーマンスを示し、オフポリシー トレーニング用にリプレイ バッファー データを適切に重み付けする利点を示しています。
状態ベースの環境では、DAC は ValueDICE および IQ-Learn を上回り (Gary et al., 2021)、わずか 1 人の専門家の軌跡で競争力のあるパフォーマンスを達成します。
要約(オリジナル)
Adversarial imitation learning (AIL) has stood out as a dominant framework across various imitation learning (IL) applications, with Discriminator Actor Critic (DAC) (Kostrikov et al.,, 2019) demonstrating the effectiveness of off-policy learning algorithms in improving sample efficiency and scalability to higher-dimensional observations. Despite DAC’s empirical success, the original AIL objective is on-policy and DAC’s ad-hoc application of off-policy training does not guarantee successful imitation (Kostrikov et al., 2019; 2020). Follow-up work such as ValueDICE (Kostrikov et al., 2020) tackles this issue by deriving a fully off-policy AIL objective. Instead in this work, we develop a novel and principled AIL algorithm via the framework of boosting. Like boosting, our new algorithm, AILBoost, maintains an ensemble of properly weighted weak learners (i.e., policies) and trains a discriminator that witnesses the maximum discrepancy between the distributions of the ensemble and the expert policy. We maintain a weighted replay buffer to represent the state-action distribution induced by the ensemble, allowing us to train discriminators using the entire data collected so far. In the weighted replay buffer, the contribution of the data from older policies are properly discounted with the weight computed based on the boosting framework. Empirically, we evaluate our algorithm on both controller state-based and pixel-based environments from the DeepMind Control Suite. AILBoost outperforms DAC on both types of environments, demonstrating the benefit of properly weighting replay buffer data for off-policy training. On state-based environments, DAC outperforms ValueDICE and IQ-Learn (Gary et al., 2021), achieving competitive performance with as little as one expert trajectory.
arxiv情報
著者 | Jonathan D. Chang,Dhruv Sreenivas,Yingbing Huang,Kianté Brantley,Wen Sun |
発行日 | 2024-04-12 14:53:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google