要約
この論文では、部分観測可能なマルコフ決定プロセス (POMDP) における表現学習について研究します。この場合、エージェントは、一連の高次元の生の観測値をコンパクトな表現にマッピングするデコーダー関数を学習し、それをより効率的な探索と計画に使用します。
私たちは \textit{$\gamma$-observable} と \textit{decodable POMDPs} のサブクラスに注目します。統計的に扱いやすい学習が可能であることが示されていますが、計算効率の高いアルゴリズムはまだ存在していません。
。
最初に、最尤推定 (MLE) と不確実性に対する楽観主義 (OFU) を組み合わせて表現学習を実行し、教師あり学習の計算オラクルのみを呼び出しながら効率的なサンプルの複雑さを実現する、復号可能な POMDP のアルゴリズムを紹介します。
次に、このアルゴリズムを $\gamma$ 観測可能な POMDP のより広範なクラスでも機能するように適応させる方法を示します。
要約(オリジナル)
In this paper, we study representation learning in partially observable Markov Decision Processes (POMDPs), where the agent learns a decoder function that maps a series of high-dimensional raw observations to a compact representation and uses it for more efficient exploration and planning. We focus our attention on the sub-classes of \textit{$\gamma$-observable} and \textit{decodable POMDPs}, for which it has been shown that statistically tractable learning is possible, but there has not been any computationally efficient algorithm. We first present an algorithm for decodable POMDPs that combines maximum likelihood estimation (MLE) and optimism in the face of uncertainty (OFU) to perform representation learning and achieve efficient sample complexity, while only calling supervised learning computational oracles. We then show how to adapt this algorithm to also work in the broader class of $\gamma$-observable POMDPs.
arxiv情報
著者 | Jiacheng Guo,Zihao Li,Huazheng Wang,Mengdi Wang,Zhuoran Yang,Xuezhou Zhang |
発行日 | 2023-06-21 16:04:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google