C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory

要約

Generative Adversarial Imitation Learning (GAIL) は、デモンストレーターを模倣する生成ポリシーをトレーニングします。
オンポリシー強化学習 (RL) を使用して、GAN のような弁別器から得られる報酬信号を最適化します。
GAIL の主な欠点は、トレーニングが不安定であることです。GAIL は、GAN の複雑なトレーニング ダイナミクスと、RL によって導入された分布シフトを継承しています。
これにより、トレーニング中に発振が発生し、サンプル効率と最終的なポリシーのパフォーマンスが損なわれる可能性があります。
最近の研究では、制御理論が GAN のトレーニングの収束に役立つことが示されています。
この論文は、この一連の研究を拡張し、GAIL の制御理論分析を実施し、GAIL を望ましい平衡状態に押し上げるだけでなく、「ワンステップ」設定で漸近安定性を達成する新しいコントローラーを導き出します。
これに基づいて、実用的なアルゴリズム「Controlled-GAIL」(C-GAIL)を提案します。
MuJoCo タスクでは、私たちの制御されたバリアントは、バニラ GAIL と GAIL-DAC の両方について、収束速度を高速化し、振動範囲を縮小し、エキスパートの分布により厳密に一致させることができます。

要約(オリジナル)

Generative Adversarial Imitation Learning (GAIL) trains a generative policy to mimic a demonstrator. It uses on-policy Reinforcement Learning (RL) to optimize a reward signal derived from a GAN-like discriminator. A major drawback of GAIL is its training instability – it inherits the complex training dynamics of GANs, and the distribution shift introduced by RL. This can cause oscillations during training, harming its sample efficiency and final policy performance. Recent work has shown that control theory can help with the convergence of a GAN’s training. This paper extends this line of work, conducting a control-theoretic analysis of GAIL and deriving a novel controller that not only pushes GAIL to the desired equilibrium but also achieves asymptotic stability in a ‘one-step’ setting. Based on this, we propose a practical algorithm ‘Controlled-GAIL’ (C-GAIL). On MuJoCo tasks, our controlled variant is able to speed up the rate of convergence, reduce the range of oscillation and match the expert’s distribution more closely both for vanilla GAIL and GAIL-DAC.

arxiv情報

著者 Tianjiao Luo,Tim Pearce,Huayu Chen,Jianfei Chen,Jun Zhu
発行日 2024-02-26 07:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク