Forward-PECVaR Algorithm: Exact Evaluation for CVaR SSPs


確率的最短経路 (SSP) 問題は、エージェントがコスト関数を最小化しながら目標を追求しなければならない確率的逐次決定問題をモデル化します。
条件付きバリュー アット リスク (CVaR) は、悪い軌道の一部 $\alpha$ の期待値を考慮して、任意のレベルのリスクをモデル化できる基準です。
最適なポリシーは非マルコフですが、CVaR-SSP のソリューションは、線形補間による CVaR 値反復 (CVaRVIQ) や分位表現による CVaR 値反復 (CVaRVILI) などの値反復ベースのアルゴリズムで近似的に見つけることができます。
これらのタイプの解は、原子数や $\alpha_0$ (最小 $\alpha$) などのアルゴリズムのパラメーターに依存します。
これらのアルゴリズムによって返されるポリシーを比較するには、CVaR-SSP の固定ポリシーを正確に評価する方法が必要です。
この論文では、不均一なコストを持つ CVaR-SSP の厳密に定常的なポリシーを評価する新しいアルゴリズム、Forward-PECVaR (ForPECVaR) を提案します。
正確な解と比較した品質に関する近似解を見つけた CVaR 値反復アルゴリズム、および解の品質とスケーラビリティにおけるアルゴリズム パラメーターの影響を経験的に評価します。
2 つのドメインでの実験は、適切な近似値を得るために、ターゲット $\alpha$ よりも小さい $\alpha_0$ と適切な数の原子を使用することが重要であることを示しています。


The Stochastic Shortest Path (SSP) problem models probabilistic sequential-decision problems where an agent must pursue a goal while minimizing a cost function. Because of the probabilistic dynamics, it is desired to have a cost function that considers risk. Conditional Value at Risk (CVaR) is a criterion that allows modeling an arbitrary level of risk by considering the expectation of a fraction $\alpha$ of worse trajectories. Although an optimal policy is non-Markovian, solutions of CVaR-SSP can be found approximately with Value Iteration based algorithms such as CVaR Value Iteration with Linear Interpolation (CVaRVIQ) and CVaR Value Iteration via Quantile Representation (CVaRVILI). These type of solutions depends on the algorithm’s parameters such as the number of atoms and $\alpha_0$ (the minimum $\alpha$). To compare the policies returned by these algorithms, we need a way to exactly evaluate stationary policies of CVaR-SSPs. Although there is an algorithm that evaluates these policies, this only works on problems with uniform costs. In this paper, we propose a new algorithm, Forward-PECVaR (ForPECVaR), that evaluates exactly stationary policies of CVaR-SSPs with non-uniform costs. We evaluate empirically CVaR Value Iteration algorithms that found solutions approximately regarding their quality compared with the exact solution, and the influence of the algorithm parameters in the quality and scalability of the solutions. Experiments in two domains show that it is important to use an $\alpha_0$ smaller than the $\alpha$ target and an adequate number of atoms to obtain a good approximation.


著者 Willy Arthur Silva Reis,Denis Benevolo Pais,Valdinei Freire,Karina Valdivia Delgado
発行日 2023-03-01 17:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI パーマリンク