Certifiably Robust Policies for Uncertain Parametric Environments

要約

私たちは、未知の確率的環境にわたって堅牢であることが証明されているポリシーを作成するためのデータ駆動型のアプローチを紹介します。
既存のアプローチは、単一環境のモデルを区間マルコフ決定プロセス (IMDP) として学習し、そのパフォーマンスに関するおそらくほぼ正しい (PAC) 保証を持つ堅牢なポリシーを生成できます。
しかし、これらは不確実性の根底にある環境パラメータの影響を推論することはできません。
我々は、パラメータにわたる未知の分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案します。
私たちは、パラメーターによって引き起こされる一連の未知のサンプル環境の IMDP を学習し、分析します。
したがって、重要な課題は、次の 2 つの不確実性層を組み合わせた有意義なパフォーマンス保証を生み出すことです。(1) 未知の分布を持つパラメータによって引き起こされる複数の環境。
(2) IMDP によって近似される未知の誘発環境。
私たちは、目に見えない環境で指定されたパフォーマンス レベルを保証できるリスク レベルを定量化する単一の PAC 保証を生み出す、シナリオの最適化に基づく新しいアプローチと、リスクとパフォーマンスをトレードオフする手段を提案します。
当社は、さまざまなベンチマークで複数の堅牢なポリシー生成手法を使用してフレームワークを実装し、評価します。
私たちのアプローチが、高い信頼性を持って政策のパフォーマンスに厳しい制限をもたらすことを示します。

要約(オリジナル)

We present a data-driven approach for producing policies that are provably robust across unknown stochastic environments. Existing approaches can learn models of a single environment as an interval Markov decision processes (IMDP) and produce a robust policy with a probably approximately correct (PAC) guarantee on its performance. However these are unable to reason about the impact of environmental parameters underlying the uncertainty. We propose a framework based on parametric Markov decision processes (MDPs) with unknown distributions over parameters. We learn and analyse IMDPs for a set of unknown sample environments induced by parameters. The key challenge is then to produce meaningful performance guarantees that combine the two layers of uncertainty: (1) multiple environments induced by parameters with an unknown distribution; (2) unknown induced environments which are approximated by IMDPs. We present a novel approach based on scenario optimisation that yields a single PAC guarantee quantifying the risk level for which a specified performance level can be assured in unseen environments, plus a means to trade-off risk and performance. We implement and evaluate our framework using multiple robust policy generation methods on a range of benchmarks. We show that our approach produces tight bounds on a policy’s performance with high confidence.

arxiv情報

著者 Yannik Schnitzer,Alessandro Abate,David Parker
発行日 2024-10-23 15:01:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク