レコメンダーシステム、医療、教育などの逐次的意思決定領域では、集団内に観察されていない異質性が存在することが多く、これは潜在バンディット $-$ フレームワークを使用してモデル化できます。このフレームワークでは、観察されていない潜在状態が軌道のモデルを決定します。
我々はまず、意思決定プロセスに対する de Finetti 定理を確立することでこの問題に取り組み、$\textit{every}$ 交換可能で一貫したステートレスな意思決定プロセスが潜在的な盗賊であることを示します。
Latent Bandit フレームワークは、逐次的な意思決定に対する関心が高まっている問題である、オフライン データセットを使用したオンライン学習に特に適しています。
オフラインの潜在バンディット データを活用して各潜在状態の複雑なモデルを学習できるため、エージェントはオンラインで潜在状態を学習するだけで最適に行動できます。
我々は、$d_A$ 次元のアクションを持つ潜在的なバンディットの線形モデルに焦点を当てます。潜在状態は、$d_K \ll d_A$ の未知の $d_K$ 次元部分空間にあります。
我々は、短いオフライン軌道からこの部分空間を保証付きで学習するための新しい原理に基づいた方法である SOLD を紹介します。
次に、このサブスペースをオンラインで活用するための 2 つの方法、LOCAL-UCB と ProBALL-UCB を提供します。
LOCAL-UCB が $\tilde O(\min(d_A\sqrt{T}, d_K\sqrt{T}(1+\sqrt{d_AT/d_KN})))$ の後悔保証を享受できることを示します。ここで、有効次元は
オフライン データセットのサイズ $N$ が大きいほど、この値は小さくなります。
ProBALL-UCB の保証はわずかに弱くなりますが、より実用的で計算効率が高くなります。
最後に、合成データと MovieLens からの現実の映画推奨データの両方に対する実験を使用して、メソッドの有効性を確立します。


Sequential decision-making domains such as recommender systems, healthcare and education often have unobserved heterogeneity in the population that can be modeled using latent bandits $-$ a framework where an unobserved latent state determines the model for a trajectory. While the latent bandit framework is compelling, the extent of its generality is unclear. We first address this by establishing a de Finetti theorem for decision processes, and show that $\textit{every}$ exchangeable and coherent stateless decision process is a latent bandit. The latent bandit framework lends itself particularly well to online learning with offline datasets, a problem of growing interest in sequential decision-making. One can leverage offline latent bandit data to learn a complex model for each latent state, so that an agent can simply learn the latent state online to act optimally. We focus on a linear model for a latent bandit with $d_A$-dimensional actions, where the latent states lie in an unknown $d_K$-dimensional subspace for $d_K \ll d_A$. We present SOLD, a novel principled method to learn this subspace from short offline trajectories with guarantees. We then provide two methods to leverage this subspace online: LOCAL-UCB and ProBALL-UCB. We demonstrate that LOCAL-UCB enjoys $\tilde O(\min(d_A\sqrt{T}, d_K\sqrt{T}(1+\sqrt{d_AT/d_KN})))$ regret guarantees, where the effective dimension is lower when the size $N$ of the offline dataset is larger. ProBALL-UCB enjoys a slightly weaker guarantee, but is more practical and computationally efficient. Finally, we establish the efficacy of our methods using experiments on both synthetic data and real-life movie recommendation data from MovieLens.


