要約
多くのインタラクティブな意思決定環境では、固定されたままの、観察されていない潜在的な情報が存在します。
たとえば、ユーザーの好みなど、ユーザーに関する完全な情報が与えられない対話システムを考えてみましょう。
このような環境では、ユーザーのアイデンティティは対話中に変化しないため、潜在情報は各エピソードを通じて固定されたままになります。
このタイプの環境は、部分的に観察されたマルコフ決定プロセス (POMDP) の特別なインスタンスである潜在マルコフ決定プロセス (LMDP) としてモデル化できます。
以前の研究では、LMDP クラスの潜在コンテキスト数の指数関数的な下限が確立されました。
これにより、次のような疑問が生じます。どのような自然な仮定の下で、LMDP のほぼ最適なポリシーを効率的に学習できるのでしょうか?
この研究では、エージェントが各エピソードの開始時に潜在的なコンテキストに関する追加の、あまり明らかではない情報を受け取るときの、{\em 予想されるサイド情報} を含む LMDP のクラスを研究します。
驚くべきことに、この問題は、部分的に観察された環境向けに設計された現代の設定やアルゴリズムでは捉えられないことを示します。
次に、サンプルの効率的なアルゴリズムは、標準の $\Omega(\sqrt{K})$ 下限とは対照的に、少なくとも $\Omega(K^{2/3})$-regret を経験する必要があることを確立し、アルゴリズムを設計します。
上限が一致します。
要約(オリジナル)
In many interactive decision-making settings, there is latent and unobserved information that remains fixed. Consider, for example, a dialogue system, where complete information about a user, such as the user’s preferences, is not given. In such an environment, the latent information remains fixed throughout each episode, since the identity of the user does not change during an interaction. This type of environment can be modeled as a Latent Markov Decision Process (LMDP), a special instance of Partially Observed Markov Decision Processes (POMDPs). Previous work established exponential lower bounds in the number of latent contexts for the LMDP class. This puts forward a question: under which natural assumptions a near-optimal policy of an LMDP can be efficiently learned? In this work, we study the class of LMDPs with {\em prospective side information}, when an agent receives additional, weakly revealing, information on the latent context at the beginning of each episode. We show that, surprisingly, this problem is not captured by contemporary settings and algorithms designed for partially observed environments. We then establish that any sample efficient algorithm must suffer at least $\Omega(K^{2/3})$-regret, as opposed to standard $\Omega(\sqrt{K})$ lower bounds, and design an algorithm with a matching upper bound.
arxiv情報
著者 | Jeongyeol Kwon,Yonathan Efroni,Shie Mannor,Constantine Caramanis |
発行日 | 2023-10-11 15:37:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google