要約
深層強化学習エージェントは、さまざまなシミュレートされた制御タスクで最先端のパフォーマンスを実現します。
しかし、現実世界の問題への応用で成功する例は依然として限られています。
この二分法が生じる理由の 1 つは、学習されたポリシーが観測ノイズや敵対的攻撃に対して堅牢ではないためです。
この論文では、決定論的連続制御タスクにおける単一の小さな状態の摂動に対するディープ RL ポリシーのロバスト性を調査します。
システム状態に対する小さな摂動がその後の状態と報酬の軌道に大きな影響を与えるため、RL ポリシーは決定論的にカオスになり得ることを示します。
この不安定な非線形動作には 2 つの影響があります。1 つは、センサーの読み取り値の不正確さ、または敵対的な攻撃により、パフォーマンスが大幅に低下する可能性があります。
第 2 に、報酬に関して堅実なパフォーマンスを示しているポリシーであっても、実際には予測できない動作が発生する可能性があります。
RL ポリシーにおける混乱のこれら 2 つの側面により、現実世界の問題へのディープ RL の適用は大幅に制限されます。
この問題に対処するために、成功した Dreamer V3 アーキテクチャの改善を提案し、Maximal Lyapunov Exponent 正則化を実装します。
この新しいアプローチは、カオス状態のダイナミクスを軽減し、学習されたポリシーのセンサーノイズや敵対的な攻撃に対する耐性を高め、それによって実世界のアプリケーションに対する深層強化学習の適合性を向上させます。
要約(オリジナル)
Deep reinforcement learning agents achieve state-of-the-art performance in a wide range of simulated control tasks. However, successful applications to real-world problems remain limited. One reason for this dichotomy is because the learned policies are not robust to observation noise or adversarial attacks. In this paper, we investigate the robustness of deep RL policies to a single small state perturbation in deterministic continuous control tasks. We demonstrate that RL policies can be deterministically chaotic as small perturbations to the system state have a large impact on subsequent state and reward trajectories. This unstable non-linear behaviour has two consequences: First, inaccuracies in sensor readings, or adversarial attacks, can cause significant performance degradation; Second, even policies that show robust performance in terms of rewards may have unpredictable behaviour in practice. These two facets of chaos in RL policies drastically restrict the application of deep RL to real-world problems. To address this issue, we propose an improvement on the successful Dreamer V3 architecture, implementing a Maximal Lyapunov Exponent regularisation. This new approach reduces the chaotic state dynamics, rendering the learnt policies more resilient to sensor noise or adversarial attacks and thereby improving the suitability of Deep Reinforcement Learning for real-world applications.
arxiv情報
著者 | Rory Young,Nicolas Pugeault |
発行日 | 2024-10-14 16:16:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google