Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space

要約

深層強化学習 (DRL) アルゴリズムでは、シミュレーションと現実世界の間のモデリング エラーが発生する可能性があります。
多くの研究では、敵対的学習を使用してトレーニング プロセス中に摂動を生成し、不一致をモデル化し、DRL の堅牢性を向上させています。
ただし、これらのアプローチのほとんどは固定パラメーターを使用して敵対的摂動の強度を制御するため、平均パフォーマンスと堅牢性の間にトレードオフが生じる可能性があります。
実際、摂動の最適なパラメータを見つけることは困難です。過剰な摂動はトレーニングを不安定にしてエージェントのパフォーマンスを損なう可能性があり、摂動が不十分だとロバスト性を高めるのに十分な情報が得られない可能性があるからです。
ロバスト性を向上させながらトレーニングの安定性を維持するために、サンプルごとに適切な敵対的摂動を動的に選択できる、シンプルだが効果的な方法、つまり適応的敵対的摂動 (A2P) を提案します。
具体的には、トレーニング中に敵対的摂動の影響を調整するための適応的な敵対的係数フレームワークを提案します。
現在の摂動の強度のメトリックを設計することにより、私たちの方法は現在の相対的なパフォーマンスに基づいて適切な摂動レベルを計算できます。
私たちの手法の魅力的な特徴は、現実世界のアプリケーションへの展開が簡単で、事前にシミュレーターにアクセスする必要がないことです。
MuJoCo での実験は、私たちの方法がトレーニングの安定性を向上させ、異なるテスト環境に移行したときに堅牢なポリシーを学習できることを示しています。
コードは https://github.com/Lqm00/A2P-SAC で入手できます。

要約(オリジナル)

Deep reinforcement learning (DRL) algorithms can suffer from modeling errors between the simulation and the real world. Many studies use adversarial learning to generate perturbation during training process to model the discrepancy and improve the robustness of DRL. However, most of these approaches use a fixed parameter to control the intensity of the adversarial perturbation, which can lead to a trade-off between average performance and robustness. In fact, finding the optimal parameter of the perturbation is challenging, as excessive perturbations may destabilize training and compromise agent performance, while insufficient perturbations may not impart enough information to enhance robustness. To keep the training stable while improving robustness, we propose a simple but effective method, namely, Adaptive Adversarial Perturbation (A2P), which can dynamically select appropriate adversarial perturbations for each sample. Specifically, we propose an adaptive adversarial coefficient framework to adjust the effect of the adversarial perturbation during training. By designing a metric for the current intensity of the perturbation, our method can calculate the suitable perturbation levels based on the current relative performance. The appealing feature of our method is that it is simple to deploy in real-world applications and does not require accessing the simulator in advance. The experiments in MuJoCo show that our method can improve the training stability and learn a robust policy when migrated to different test environments. The code is available at https://github.com/Lqm00/A2P-SAC.

arxiv情報

著者 Qianmei Liu,Yufei Kuang,Jie Wang
発行日 2024-05-20 12:31:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク