要約
制約付きマルコフ意思決定プロセス (CMDP) は、エージェントが期待コストを所定のしきい値以下に保ちながら期待ペイオフを最適化するもので、確率的不確実性の下で安全に逐次意思決定を行うための主要なフレームワークです。
CMDP での計画と学習のためのアルゴリズムの中でも、モンテカルロ木探索 (MCTS) に基づく方法は、その効率性と、より複雑なフレームワーク (部分的に観察可能な設定やゲームなど) への拡張性により、特に重要です。
しかし、現在の MCTS ベースの CMDP 手法は、安全な (つまり、制約を満たす) ポリシーを見つけるのに苦労しているか、保守的すぎて価値のあるポリシーを見つけられません。
CMDP 計画用のオンライン MCTS ベースのアルゴリズムである Threshold UCT (T-UCT) を紹介します。
以前の MCTS ベースの CMDP プランナーとは異なり、T-UCT は検索ツリー全体でコストとユーティリティのトレードオフのパレート曲線を明示的に推定し、これらを新しいアクション選択としきい値更新ルールとともに使用して、安全で価値のあるポリシーを求めます。
私たちの実験は、私たちのアプローチが文献による最先端の方法よりも大幅に優れていることを示しています。
要約(オリジナル)
Constrained Markov decision processes (CMDPs), in which the agent optimizes expected payoffs while keeping the expected cost below a given threshold, are the leading framework for safe sequential decision making under stochastic uncertainty. Among algorithms for planning and learning in CMDPs, methods based on Monte Carlo tree search (MCTS) have particular importance due to their efficiency and extendibility to more complex frameworks (such as partially observable settings and games). However, current MCTS-based methods for CMDPs either struggle with finding safe (i.e., constraint-satisfying) policies, or are too conservative and do not find valuable policies. We introduce Threshold UCT (T-UCT), an online MCTS-based algorithm for CMDP planning. Unlike previous MCTS-based CMDP planners, T-UCT explicitly estimates Pareto curves of cost-utility trade-offs throughout the search tree, using these together with a novel action selection and threshold update rules to seek safe and valuable policies. Our experiments demonstrate that our approach significantly outperforms state-of-the-art methods from the literature.
arxiv情報
著者 | Martin Kurečka,Václav Nevyhoštěný,Petr Novotný,Vít Unčovský |
発行日 | 2024-12-18 15:41:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google