Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach

要約

部分的に観察可能なマルコフ決定プロセス (POMDP) は、不確実性の下で計画を立てるための強力なフレームワークです。
これらにより、状態の不確実性を信念確率分布としてモデル化することができます。
モンテカルロ サンプリングに基づく近似ソルバーは、計算需要を緩和し、オンライン計画を実行するのに大きな成功を収めています。
ただし、多くのアクションと長い計画期間を伴う複雑で現実的なドメインにスケーリングすることは依然として大きな課題であり、良好なパフォーマンスを達成するための重要なポイントは、特定のアプリケーション ドメインに合わせて調整されたドメイン依存のポリシー ヒューリスティックを使用してアクション選択プロセスをガイドすることです。
私たちは、ソルバーによって生成された実行の POMDP トレースから高品質のヒューリスティックを学習することを提案します。
私たちは信念と行動のペアを論理セマンティクスに変換し、データ効率と時間効率の高い帰納的論理プログラミング (ILP) を利用して解釈可能な信念ベースのポリシー仕様を生成し、オンライン ヒューリスティックとして使用します。
私たちは、大規模なアクション スペースと長い計画期間を伴う、悪名高い 2 つの難題な POMDP 問題、つまり、rocksample と pocman に関する方法論を徹底的に評価します。
POMCP、DESPOT、AdaOPS などのさまざまな最先端のオンライン POMDP ソルバーを考慮すると、応答セット プログラミング (ASP) で表現された学習ヒューリスティックが、ニューラル ネットワークよりも優れたパフォーマンスをもたらし、低コストで最適な手作りのタスク固有のヒューリスティックと同様のパフォーマンスを生み出すことを示します。
計算時間。
さらに、これらは、トレーニング段階では経験されなかった、より困難なシナリオにもよく一般化されます (たとえば、rocksample での岩とグリッドのサイズの増加、pocman でのマップのサイズとゴーストの攻撃性の増加)。

要約(オリジナル)

Partially Observable Markov Decision Processes (POMDPs) are a powerful framework for planning under uncertainty. They allow to model state uncertainty as a belief probability distribution. Approximate solvers based on Monte Carlo sampling show great success to relax the computational demand and perform online planning. However, scaling to complex realistic domains with many actions and long planning horizons is still a major challenge, and a key point to achieve good performance is guiding the action-selection process with domain-dependent policy heuristics which are tailored for the specific application domain. We propose to learn high-quality heuristics from POMDP traces of executions generated by any solver. We convert the belief-action pairs to a logical semantics, and exploit data- and time-efficient Inductive Logic Programming (ILP) to generate interpretable belief-based policy specifications, which are then used as online heuristics. We evaluate thoroughly our methodology on two notoriously challenging POMDP problems, involving large action spaces and long planning horizons, namely, rocksample and pocman. Considering different state-of-the-art online POMDP solvers, including POMCP, DESPOT and AdaOPS, we show that learned heuristics expressed in Answer Set Programming (ASP) yield performance superior to neural networks and similar to optimal handcrafted task-specific heuristics within lower computational time. Moreover, they well generalize to more challenging scenarios not experienced in the training phase (e.g., increasing rocks and grid size in rocksample, incrementing the size of the map and the aggressivity of ghosts in pocman).

arxiv情報

著者 Daniele Meli,Alberto Castellini,Alessandro Farinelli
発行日 2024-02-29 15:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO パーマリンク