Solving General-Utility Markov Decision Processes in the Single-Trial Regime with Online Planning

要約

この作業では、単一裁判のレジームで、つまりエージェントのパフォーマンスが単一の軌跡に基づいて評価されたときに、無限のホリゾンの割引一般的なマルコフ決定プロセス(GUMDP)を解決するための最初のアプローチを貢献します。
まず、単一裁判体制における政策最適化に関するいくつかの基本的な結果を提供し、どのクラスのポリシーが最適性に十分であるかを調査し、問題を元の問題に相当する特定のMDPとして投げかけ、単一裁判体制における政策最適化の計算硬度を研究します。
第二に、オンライン計画手法、特にモンテカルロツリー検索アルゴリズムを活用して、単一裁判体制のGUMDPを解決する方法を示します。
第三に、関連するベースラインと比較して、アプローチの優れたパフォーマンスを示す実験結果を提供します。

要約(オリジナル)

In this work, we contribute the first approach to solve infinite-horizon discounted general-utility Markov decision processes (GUMDPs) in the single-trial regime, i.e., when the agent’s performance is evaluated based on a single trajectory. First, we provide some fundamental results regarding policy optimization in the single-trial regime, investigating which class of policies suffices for optimality, casting our problem as a particular MDP that is equivalent to our original problem, as well as studying the computational hardness of policy optimization in the single-trial regime. Second, we show how we can leverage online planning techniques, in particular a Monte-Carlo tree search algorithm, to solve GUMDPs in the single-trial regime. Third, we provide experimental results showcasing the superior performance of our approach in comparison to relevant baselines.

arxiv情報

著者 Pedro P. Santos,Alberto Sardinha,Francisco S. Melo
発行日 2025-05-21 17:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク