Learning Symbolic Persistent Macro-Actions for POMDP Solving Over Time

要約

このペーパーでは、マクロアクションとの不確実性の下で解釈可能な意思決定を達成するために、一時的な論理推論と部分的に観察可能なマルコフ決定プロセス(POMDP)の統合を提案します。
私たちの方法は、イベント計算(EC)に基づいて線形側頭論理(LTL)のフラグメントを活用して、\ emph {永続的}(つまり、一定)マクロ酸化を生成します。
このようなマクロ活動は、いくつかの実行(信念アクションペア)からの帰納的論理プログラミング(ILP)を介して学習されるため、手動で設計されたヒューリスティックの必要性を排除し、POMDP遷移モデルの仕様のみを必要とします。
Pocman and Rocksampleのベンチマークシナリオでは、学習したマクロアクションは、時間に依存しないヒューリスティックと比較すると表現力と一般性の増加を示し、実際に大幅な計算効率の改善を提供します。

要約(オリジナル)

This paper proposes an integration of temporal logical reasoning and Partially Observable Markov Decision Processes (POMDPs) to achieve interpretable decision-making under uncertainty with macro-actions. Our method leverages a fragment of Linear Temporal Logic (LTL) based on Event Calculus (EC) to generate \emph{persistent} (i.e., constant) macro-actions, which guide Monte Carlo Tree Search (MCTS)-based POMDP solvers over a time horizon, significantly reducing inference time while ensuring robust performance. Such macro-actions are learnt via Inductive Logic Programming (ILP) from a few traces of execution (belief-action pairs), thus eliminating the need for manually designed heuristics and requiring only the specification of the POMDP transition model. In the Pocman and Rocksample benchmark scenarios, our learned macro-actions demonstrate increased expressiveness and generality when compared to time-independent heuristics, indeed offering substantial computational efficiency improvements.

arxiv情報

著者 Celeste Veronese,Daniele Meli,Alessandro Farinelli
発行日 2025-05-06 16:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク