要約
強化学習 (RL) は、ロボット工学における制御タスクなど、さまざまな逐次的意思決定問題の解決において大きな進歩を遂げました。
ポリシーはトレーニング環境に過剰に適合しているため、RL メソッドは安全性が重要なテスト シナリオに一般化されていないことがよくあります。
Robust adversarial RL (RARL) は、システムに妨害を適用する敵対的ネットワークをトレーニングするために以前に提案されました。これにより、テスト シナリオの堅牢性が向上します。
ただし、ニューラル ネットワーク ベースの攻撃者の問題は、高度な報酬信号を手作りせずにシステム要件を統合することが難しいことです。
安全反証法により、システムが時相論理で定式化された特定のプロパティに違反するように、一連の初期条件と入力シーケンスを見つけることができます。
この論文では、改ざんベースの RARL (FRARL) を提案します。これは、時相論理の改ざんを敵対的学習に統合してポリシーの堅牢性を向上させるための最初の一般的なフレームワークです。
改ざん手法を適用することで、敵に対して追加の報酬関数を構築する必要がなくなります。
さらに、自動運転車のブレーキ支援システムと適応型クルーズ コントロール システムに関するアプローチを評価します。
私たちの実験結果は、改ざんベースの敵対者でトレーニングされたポリシーは、敵対者なしで、または敵対的ネットワークでトレーニングされたポリシーよりも、テストシナリオでより一般化し、安全仕様の違反が少ないことを示しています。
要約(オリジナル)
Reinforcement learning (RL) has achieved enormous progress in solving various sequential decision-making problems, such as control tasks in robotics. Since policies are overfitted to training environments, RL methods have often failed to be generalized to safety-critical test scenarios. Robust adversarial RL (RARL) was previously proposed to train an adversarial network that applies disturbances to a system, which improves the robustness in test scenarios. However, an issue of neural network-based adversaries is that integrating system requirements without handcrafting sophisticated reward signals are difficult. Safety falsification methods allow one to find a set of initial conditions and an input sequence, such that the system violates a given property formulated in temporal logic. In this paper, we propose falsification-based RARL (FRARL): this is the first generic framework for integrating temporal logic falsification in adversarial learning to improve policy robustness. By applying our falsification method, we do not need to construct an extra reward function for the adversary. Moreover, we evaluate our approach on a braking assistance system and an adaptive cruise control system of autonomous vehicles. Our experimental results demonstrate that policies trained with a falsification-based adversary generalize better and show less violation of the safety specification in test scenarios than those trained without an adversary or with an adversarial network.
arxiv情報
著者 | Xiao Wang,Saasha Nair,Matthias Althoff |
発行日 | 2023-03-20 06:57:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google