Learning Provably Robust Policies in Uncertain Parametric Environments

要約

我々は、遷移確率が未知の分布を持つパラメータによって定義される確率的環境全体にわたって堅牢な MDP ポリシーを学習するためのデータ駆動型アプローチを提案します。
私たちは、未知のディストリビューション上の新しい未知の環境におけるこれらの学習されたポリシーのパフォーマンスについて、おそらくほぼ正しい (PAC) 保証を生成します。
私たちのアプローチは、MDP 環境の有限サンプルに基づいており、それぞれの生成された軌跡のセットを調査することによって、区間 MDP としてモデルの近似を構築します。
構築された近似値を使用して、サンプリングされた環境全体で適切に機能する (特定の要件を満たす) 単一のポリシーを合成し、さらに、目に見えない環境に導入された場合のリスク (特定の要件を満たさない) を制限します。
私たちの手順は、学習されたポリシーの保証されたパフォーマンスと、目に見えない環境で保証を満たさないリスクとの間のトレードオフを提供します。
私たちのアプローチは、環境の状態空間とグラフ構造の知識を活用し、そのパラメトリック構造の追加の知識を活用して学習を最適化し、より少ないサンプルからより厳密な保証を得る方法を示します。
当社は確立されたさまざまなベンチマークに基づいて当社のアプローチを評価し、当社がパフォーマンスとそれに伴うリスクを厳密に定量化する保証とともに、パフォーマンスが高く堅牢なポリシーを生成できることを実証しています。

要約(オリジナル)

We present a data-driven approach for learning MDP policies that are robust across stochastic environments whose transition probabilities are defined by parameters with an unknown distribution. We produce probably approximately correct (PAC) guarantees for the performance of these learned policies in a new, unseen environment over the unknown distribution. Our approach is based on finite samples of the MDP environments, for each of which we build an approximation of the model as an interval MDP, by exploring a set of generated trajectories. We use the built approximations to synthesise a single policy that performs well (meets given requirements) across the sampled environments, and furthermore bound its risk (of not meeting the given requirements) when deployed in an unseen environment. Our procedure offers a trade-off between the guaranteed performance of the learned policy and the risk of not meeting the guarantee in an unseen environment. Our approach exploits knowledge of the environment’s state space and graph structure, and we show how additional knowledge of its parametric structure can be leveraged to optimize learning and to obtain tighter guarantees from less samples. We evaluate our approach on a diverse range of established benchmarks, demonstrating that we can generate highly performing and robust policies, along with guarantees that tightly quantify their performance and the associated risk.

arxiv情報

著者 Yannik Schnitzer,Alessandro Abate,David Parker
発行日 2024-08-06 10:48:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク