要約
この論文では、観察からの模倣学習のための新しいサンプル効率の高いオンポリシー アルゴリズムである MAAD を紹介します。
MAAD は、敵対ゲーム、軌道マッチング目標、最適なトランスポート基準などのさまざまなソースから派生できる代理報酬信号を利用します。
エキスパートのアクションが利用できないことを補うために、エキスパートの状態間の遷移を考慮して、もっともらしいアクションの分布を推測する逆ダイナミクス モデルに依存します。
推測されたアクションの分布に合わせて模倣者のポリシーを正規化します。
MAAD により、サンプルの効率と安定性が大幅に向上します。
私たちは、OpenAI Gym と DeepMind Control Suite の両方の多くの MuJoCo 環境でその有効性を実証しています。
我々は、エキスパートのパフォーマンスを達成するために必要なインタラクションが大幅に少なくなり、現在の最先端のポリシー手法を上回るパフォーマンスを示すことを示します。
注目すべきことに、MAAD は多くの場合、エキスパートのパフォーマンス レベルを達成できる唯一の方法として際立っており、そのシンプルさと有効性が強調されています。
要約(オリジナル)
In this paper, we introduce MAAD, a novel, sample-efficient on-policy algorithm for Imitation Learning from Observations. MAAD utilizes a surrogate reward signal, which can be derived from various sources such as adversarial games, trajectory matching objectives, or optimal transport criteria. To compensate for the non-availability of expert actions, we rely on an inverse dynamics model that infers plausible actions distribution given the expert’s state-state transitions; we regularize the imitator’s policy by aligning it to the inferred action distribution. MAAD leads to significantly improved sample efficiency and stability. We demonstrate its effectiveness in a number of MuJoCo environments, both int the OpenAI Gym and the DeepMind Control Suite. We show that it requires considerable fewer interactions to achieve expert performance, outperforming current state-of-the-art on-policy methods. Remarkably, MAAD often stands out as the sole method capable of attaining expert performance levels, underscoring its simplicity and efficacy.
arxiv情報
著者 | João A. Cândido Ramos,Lionel Blondé,Naoya Takeishi,Alexandros Kalousis |
発行日 | 2024-02-09 16:04:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google