Adversarial Policy Optimization in Deep Reinforcement Learning

要約

タイトル:深層強化学習におけるアドバーサリーポリシー最適化

要約:

– 深層ニューラルネットワークによって表現されるポリシーは、観測値の偽の特徴に過剰適合し、強化学習エージェントが有効なポリシーを学習することを妨げることがある。
– この問題は、エージェントが有用なポリシーを学習するのに苦労する高次元状態でより深刻となる。
– データ増強は、オーバーフィッティングの影響を緩和することでRLエージェントのパフォーマンスを向上させることができるが、環境に単純に適用するとエージェントのパフォーマンスが悪化する可能性がある。
– 本論文では、上記の問題を緩和し、学習されたポリシーの効率を向上させるための新しいRLアルゴリズムを提案している。
– 我々の手法は、最大化する擾乱ネットワークと、状態の歪みを最小化するエージェントの行動確率を最大化するネットワークから構成される。これにより、エージェントは、将来の報酬期待値を最大化する一方で、擾乱の影響を最小限に抑えた更新ができる。
– このオブジェクティブに基づいて、我々は実用的な深層強化学習アルゴリズム、Adversarial Policy Optimization(APO)を提案している。
– 我々は、高次元かつノイズのあるディープマインドコントロールロボティック環境でアプローチを評価し、状況においてAPOが最新のオンポリシーPPOエージェントを常に上回ることを実証した。
– さらに、我々はデータ増強の最新手法RADと正則化ベースのアプローチDRACと比較して、エージェントAPOはこれらのベースラインよりも優れた性能を示した。

要約(オリジナル)

The policy represented by the deep neural network can overfit the spurious features in observations, which hamper a reinforcement learning agent from learning effective policy. This issue becomes severe in high-dimensional state, where the agent struggles to learn a useful policy. Data augmentation can provide a performance boost to RL agents by mitigating the effect of overfitting. However, such data augmentation is a form of prior knowledge, and naively applying them in environments might worsen an agent’s performance. In this paper, we propose a novel RL algorithm to mitigate the above issue and improve the efficiency of the learned policy. Our approach consists of a max-min game theoretic objective where a perturber network modifies the state to maximize the agent’s probability of taking a different action while minimizing the distortion in the state. In contrast, the policy network updates its parameters to minimize the effect of perturbation while maximizing the expected future reward. Based on this objective, we propose a practical deep reinforcement learning algorithm, Adversarial Policy Optimization (APO). Our method is agnostic to the type of policy optimization, and thus data augmentation can be incorporated to harness the benefit. We evaluated our approaches on several DeepMind Control robotic environments with high-dimensional and noisy state settings. Empirical results demonstrate that our method APO consistently outperforms the state-of-the-art on-policy PPO agent. We further compare our method with state-of-the-art data augmentation, RAD, and regularization-based approach DRAC. Our agent APO shows better performance compared to these baselines.

arxiv情報

著者 Md Masudur Rahman,Yexiang Xue
発行日 2023-04-27 21:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク