Learning Explainable and Better Performing Representations of POMDP Strategies

要約

部分的に観察可能なマルコフ決定プロセス (POMDP) の戦略には通常、メモリが必要です。
この記憶を表現する 1 つの方法は、オートマトンを使用することです。
我々は、L* アルゴリズムの修正を使用して戦略のオートマトン表現を学習する方法を紹介します。
戦略の表形式の表現と比較して、結果として得られるオートマトンは大幅に小さくなり、したがってより説明しやすくなります。
さらに、学習プロセスでは、ヒューリスティックによって戦略のパフォーマンスが向上する可能性もあります。
POMDP から直接オートマトンを合成してそれを解決するアプローチとは対照的に、私たちのアプローチは比較にならないほどスケーラブルです。

要約(オリジナル)

Strategies for partially observable Markov decision processes (POMDP) typically require memory. One way to represent this memory is via automata. We present a method to learn an automaton representation of a strategy using a modification of the L*-algorithm. Compared to the tabular representation of a strategy, the resulting automaton is dramatically smaller and thus also more explainable. Moreover, in the learning process, our heuristics may even improve the strategy’s performance. In contrast to approaches that synthesize an automaton directly from the POMDP thereby solving it, our approach is incomparably more scalable.

arxiv情報

著者 Alexander Bork,Debraj Chakraborty,Kush Grover,Jan Kretinsky,Stefanie Mohr
発行日 2024-05-21 16:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO パーマリンク