C-MCTS: Safe Planning with Monte Carlo Tree Search

要約

安全性が重要なシナリオなど、現実世界の意思決定タスクの多くは、厳しい制約が含まれるため、マルコフ意思決定プロセス (MDP) フレームワークを使用した単一の目的設定では完全に記述することができません。
これらは代わりに、制約付きマルコフ決定プロセス (CMDP) フレームワーク内で追加のコスト関数を使用してモデル化できます。
CMDP は強化学習の文献で広く研究されてきましたが、CMDP を解決するための MCTS などのサンプリングベースの計画アルゴリズムにはほとんど注目されていません。
以前のアプローチでは、モンテカルロ コスト推定を使用して制約違反を回避していました。
ただし、これらは変動が大きいため、コストの点でパフォーマンスが保守的になります。
我々は、安全性批評家を使用してコストを推定するアルゴリズムである Constrained MCTS (C-MCTS) を提案します。
安全性評論家トレーニングは、エージェント展開前のオフライン段階での時間差学習に基づいています。
この批評家は、検索ツリーの探索を制限し、展開中に MCTS 内の安全でない軌道を削除します。
C-MCTS はコスト制約を満たしますが、制約境界に近いところで動作し、以前の研究と比較してより高い報酬を実現します。
素晴らしい副産物として、プランナーの効率が向上し、必要な計画手順が減ります。
最も重要なことは、プランナーと現実世界の間のモデルの不一致の下で、私たちのアプローチが以前の研究よりもコスト違反の影響を受けにくいことを示しています。

要約(オリジナル)

Many real-world decision-making tasks, such as safety-critical scenarios, cannot be fully described in a single-objective setting using the Markov Decision Process (MDP) framework, as they include hard constraints. These can instead be modeled with additional cost functions within the Constrained Markov Decision Process (CMDP) framework. Even though CMDPs have been extensively studied in the Reinforcement Learning literature, little attention has been given to sampling-based planning algorithms such as MCTS for solving them. Previous approaches use Monte Carlo cost estimates to avoid constraint violations. However, these suffer from high variance which results in conservative performance with respect to costs. We propose Constrained MCTS (C-MCTS), an algorithm that estimates cost using a safety critic. The safety critic training is based on Temporal Difference learning in an offline phase prior to agent deployment. This critic limits the exploration of the search tree and removes unsafe trajectories within MCTS during deployment. C-MCTS satisfies cost constraints but operates closer to the constraint boundary, achieving higher rewards compared to previous work. As a nice byproduct, the planner is more efficient requiring fewer planning steps. Most importantly, we show that under model mismatch between the planner and the real world, our approach is less susceptible to cost violations than previous work.

arxiv情報

著者 Dinesh Parthasarathy,Georgios Kontes,Axel Plinge,Christopher Mutschler
発行日 2023-05-25 16:08:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク