The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough

要約

マルコフ決定プロセスにおける純粋探索の問題は、エージェントのポリシーによって引き起こされる状態分布にわたるエントロピーを最大化するものとして投げかけられており、その目的は広範囲に研究されてきた。
しかし、部分可観測性の下での状態エントロピーの最大化には、ほとんど注目が払われてきませんでした。後者は、金融やロボット工学などのアプリケーションで広く普及しており、エージェントは、システムのダイナミクスを支配する真の状態のノイズの多い観察のみを受信します。
これらのドメインにおける状態エントロピーの最大化にどのように対処できるでしょうか?
この論文では、真の潜在状態の代わりに観測上のエントロピーを最大化する単純なアプローチを研究します。
まず、観測関数の一部のプロパティにのみ依存する真の状態エントロピーの近似値の下限と上限を提供します。
次に、後者の知識を利用して観測エントロピーの原理に基づいた正則化を計算し、パフォーマンスを向上させる方法を示します。
この研究により、POMDP 設定における状態エントロピーの最大化の進歩をもたらす柔軟なアプローチと、その固有の限界の理論的特徴付けの両方を提供します。

要約(オリジナル)

The problem of pure exploration in Markov decision processes has been cast as maximizing the entropy over the state distribution induced by the agent’s policy, an objective that has been extensively studied. However, little attention has been dedicated to state entropy maximization under partial observability, despite the latter being ubiquitous in applications, e.g., finance and robotics, in which the agent only receives noisy observations of the true state governing the system’s dynamics. How can we address state entropy maximization in those domains? In this paper, we study the simple approach of maximizing the entropy over observations in place of true latent states. First, we provide lower and upper bounds to the approximation of the true state entropy that only depends on some properties of the observation function. Then, we show how knowledge of the latter can be exploited to compute a principled regularization of the observation entropy to improve performance. With this work, we provide both a flexible approach to bring advances in state entropy maximization to the POMDP setting and a theoretical characterization of its intrinsic limits.

arxiv情報

著者 Riccardo Zamboni,Duilio Cirino,Marcello Restelli,Mirco Mutti
発行日 2024-06-18 17:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク