Bounded Robustness in Reinforcement Learning via Lexicographic Objectives

要約

強化学習におけるポリシーの堅牢性は、いかなる犠牲を払っても望ましいものではない可能性があります。他の最適なポリシーからの堅牢性要件によって引き起こされる変更は、説明可能、定量化可能、および形式的に検証可能である必要があります。
この研究では、外乱の確率的線形演算子解釈を通じて、ポリシーがこのノイズによってどのように変更されるかを分析することで、任意の観測ノイズに対してポリシーがどのように最大限に堅牢になるかを研究し、堅牢性とノイズ カーネルお​​よび基礎となる MDP の特性との関係を確立します。

次に、ポリシーの堅牢性のための十分な条件を構築し、ポリシー合成における収束と準最適性を維持しながら、辞書編集的最適化を通じて堅牢性と期待されるポリシーの有用性を正式にトレードオフする、あらゆるポリシー勾配アルゴリズムに適用可能な堅牢性を誘導するスキームを提案します。

要約(オリジナル)

Policy robustness in Reinforcement Learning may not be desirable at any cost: the alterations caused by robustness requirements from otherwise optimal policies should be explainable, quantifiable and formally verifiable. In this work we study how policies can be maximally robust to arbitrary observational noise by analysing how they are altered by this noise through a stochastic linear operator interpretation of the disturbances, and establish connections between robustness and properties of the noise kernel and of the underlying MDPs. Then, we construct sufficient conditions for policy robustness, and propose a robustness-inducing scheme, applicable to any policy gradient algorithm, that formally trades off expected policy utility for robustness through lexicographic optimisation, while preserving convergence and sub-optimality in the policy synthesis.

arxiv情報

著者 Daniel Jarne Ornia,Licio Romao,Lewis Hammond,Manuel Mazo Jr.,Alessandro Abate
発行日 2023-12-11 15:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク