要約
実際の設定での計画は、ユーザーの要件に合わせて部分的に観察可能性に対処することを必要とすることがよくあります。
目標指向の部分的に観察可能なマルコフ決定プロセス(GPOMDP)の設定におけるパラメーター化された信念 – 状態クエリ(BSQ)ポリシーを使用して、部分的に観察可能な設定でエージェントの動作に関するユーザーの制約と好みを表現するための新しいフレームワークを提示します。
このような制約の最初の正式な分析を提示し、パラメーター化されたBSQポリシーの予想コスト関数w.r.tのパラメーターは凸ではないが、それは区分的な一定であり、有限の範囲で有限の暗黙の離散パラメーター検索空間を生成することを証明します。
この理論的結果は、ユーザーアライメントを保証してGPOMDPエージェントの動作を最適化する新しいアルゴリズムにつながります。
分析では、アルゴリズムが限界で最適なユーザーに配置された動作に収束することが証明されています。
経験的な結果は、パラメーター化されたBSQポリシーが、部分的に観察可能な設定でのユーザーに配置された計画のための計算的に実行可能なアプローチを提供することを示しています。
要約(オリジナル)
Planning in real-world settings often entails addressing partial observability while aligning with users’ requirements. We present a novel framework for expressing users’ constraints and preferences about agent behavior in a partially observable setting using parameterized belief-state query (BSQ) policies in the setting of goal-oriented partially observable Markov decision processes (gPOMDPs). We present the first formal analysis of such constraints and prove that while the expected cost function of a parameterized BSQ policy w.r.t its parameters is not convex, it is piecewise constant and yields an implicit discrete parameter search space that is finite for finite horizons. This theoretical result leads to novel algorithms that optimize gPOMDP agent behavior with guaranteed user alignment. Analysis proves that our algorithms converge to the optimal user-aligned behavior in the limit. Empirical results show that parameterized BSQ policies provide a computationally feasible approach for user-aligned planning in partially observable settings.
arxiv情報
著者 | Daniel Bramblett,Siddharth Srivastava |
発行日 | 2025-04-15 17:47:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google