Provably Efficient High-Dimensional Bandit Learning with Batched Feedbacks

要約

私たちは、オンライン インタラクションの $T$ ステップが $L$ バッチに分割されるバッチ フィードバックを使用して、高次元のマルチアーム コンテキスト バンディットを研究します。
具体的には、各バッチは前のバッチに依存するポリシーに従ってデータを収集し、報酬はバッチの終了時にのみ明らかにされます。
このようなフィードバック構造は、オンライン データが完全に逐次的に到着しないことが多い、個別化医療やオンライン広告などのアプリケーションで一般的です。
バンディット モデルの報酬関数がスパース構造または低ランク構造のいずれかを許容する高次元の線形設定を検討し、$L = T$ の完全に動的なデータで同等のパフォーマンスを得るために必要なバッチ数がどれだけ少ないかを尋ねます。

これらの設定では、疎な場合の $ \mathcal{\tilde O}(s_0^2 \log^2 T)$ リグアロングと $ \mathcal{\tilde O} ( r
^2 \log^2 T)$ は、$L = \mathcal{O}( \log T)$ バッチのみを使用した低ランクの場合に後悔します。
ここで、$s_0$ と $r$ は、それぞれ、スパースな場合と低ランクの場合の報酬パラメーターのスパース度とランクであり、$ \mathcal{\tilde O}(\cdot)$ は、特徴の次元に関係する対数因数を省略しています。
言い換えれば、私たちのアルゴリズムは $\mathcal{O}( \log T)$ バッチのみを使用した完全シーケンシャル設定の場合と同等のリグレス限界を達成します。
当社のアルゴリズムは、各バッチ内の推定精度と累積リグレスに応じてバッチ サイズを調整する新しいバッチ割り当て方法を特徴としています。
さらに、理論を検証するために、合成データと現実世界のデータを使用した実験も行っています。

要約(オリジナル)

We study high-dimensional multi-armed contextual bandits with batched feedback where the $T$ steps of online interactions are divided into $L$ batches. In specific, each batch collects data according to a policy that depends on previous batches and the rewards are revealed only at the end of the batch. Such a feedback structure is popular in applications such as personalized medicine and online advertisement, where the online data often do not arrive in a fully serial manner. We consider high-dimensional and linear settings where the reward function of the bandit model admits either a sparse or low-rank structure and ask how small a number of batches are needed for a comparable performance with fully dynamic data in which $L = T$. For these settings, we design a provably sample-efficient algorithm which achieves a $ \mathcal{\tilde O}(s_0^2 \log^2 T)$ regret in the sparse case and $ \mathcal{\tilde O} ( r ^2 \log^2 T)$ regret in the low-rank case, using only $L = \mathcal{O}( \log T)$ batches. Here $s_0$ and $r$ are the sparsity and rank of the reward parameter in sparse and low-rank cases, respectively, and $ \mathcal{\tilde O}(\cdot)$ omits logarithmic factors involving the feature dimensions. In other words, our algorithm achieves regret bounds comparable to those in fully sequential setting with only $\mathcal{O}( \log T)$ batches. Our algorithm features a novel batch allocation method that adjusts the batch sizes according to the estimation accuracy within each batch and cumulative regret. Furthermore, we also conduct experiments with synthetic and real-world data to validate our theory.

arxiv情報

著者 Jianqing Fan,Zhaoran Wang,Zhuoran Yang,Chenlu Ye
発行日 2023-11-24 18:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク