Preference-Based Planning in Stochastic Environments: From Partially-Ordered Temporal Goals to Most Preferred Policies

要約

人間の好みは、必ずしも完全な線形順序で表されるわけではありません。比類のない結果を表現するには、部分的に順序付けされた好みを使用するのが自然です。
この研究では、時間的に拡張された一連の目標に対して部分的に順序付けされた優先順位が与えられた場合、マルコフ決定プロセス (MDP) としてモデル化された確率システムにおける意思決定と確率的計画を検討します。
具体的には、時間的に拡張された各目標は、有限トレース上の線形時間論理 (LTL$_f$) の式を使用して表現されます。
部分的に順序付けされた優先順位を使用して計画を立てるために、順序理論を導入して、時間的目標に対する優先順位を MDP のポリシーに対する優先順位にマッピングします。
したがって、確率的順序付けに基づく最も好ましいポリシーは、MDP の有限パスにわたって確率的非支配確率分布を引き起こします。
最も好ましいポリシーを合成するための、当社の技術的アプローチには 2 つの重要な手順が含まれています。
最初のステップでは、時間的目標に対する部分順序の選好を、受け入れ条件に対する部分順序を持つ半オートマトンである選好オートマトンと呼ばれる計算モデルに変換する手順を開発します。
2 番目のステップでは、最も優先されるポリシーを見つけることは、元の MDP、優先オートマトン、および選択された確率的順序関係から構築される多目的 MDP でパレート最適ポリシーを計算することと同等であることを証明します。
この文書全体を通じて、提案されたプリファレンス仕様とソリューションのアプローチを説明するために実行例を使用します。
これらの例を使用してアルゴリズムの有効性を実証し、詳細な分析を提供してから、いくつかの将来の方向性について説明します。

要約(オリジナル)

Human preferences are not always represented via complete linear orders: It is natural to employ partially-ordered preferences for expressing incomparable outcomes. In this work, we consider decision-making and probabilistic planning in stochastic systems modeled as Markov decision processes (MDPs), given a partially ordered preference over a set of temporally extended goals. Specifically, each temporally extended goal is expressed using a formula in Linear Temporal Logic on Finite Traces (LTL$_f$). To plan with the partially ordered preference, we introduce order theory to map a preference over temporal goals to a preference over policies for the MDP. Accordingly, a most preferred policy under a stochastic ordering induces a stochastic nondominated probability distribution over the finite paths in the MDP. To synthesize a most preferred policy, our technical approach includes two key steps. In the first step, we develop a procedure to transform a partially ordered preference over temporal goals into a computational model, called preference automaton, which is a semi-automaton with a partial order over acceptance conditions. In the second step, we prove that finding a most preferred policy is equivalent to computing a Pareto-optimal policy in a multi-objective MDP that is constructed from the original MDP, the preference automaton, and the chosen stochastic ordering relation. Throughout the paper, we employ running examples to illustrate the proposed preference specification and solution approaches. We demonstrate the efficacy of our algorithm using these examples, providing detailed analysis, and then discuss several potential future directions.

arxiv情報

著者 Hazhar Rahmani,Abhishek N. Kulkarni,Jie Fu
発行日 2024-03-27 02:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.FL, cs.LO, cs.RO パーマリンク