要約
特徴量の次元が大きい高次元設定の下で、コンテキストバンディットウィズナップザック(CBwK)問題を研究します。
各アームを引くことの報酬は、スパースな高次元の重みベクトルと、追加のランダム ノイズを伴う現在の到着の特徴の乗算に等しくなります。
この論文では、このスパース構造を利用して CBwK 問題のリポートを改善する方法を調査します。
この目的を達成するために、まずオンラインでスパース推定を実行するハードしきい値アルゴリズムのオンライン バリアントを開発します。
さらに、オンライン推定器を主双対フレームワークと組み合わせます。このフレームワークでは、各ナップザック制約に双対変数を割り当て、オンライン学習アルゴリズムを利用して双対変数を更新することで、ナップザック容量の消費を制御します。
この統合アプローチにより、特徴次元に対数的に依存するサブリニアリグレスを達成できるため、以前の文献で確立された多項式依存性が改善されることを示します。
また、私たちのフレームワークをナップザック制約なしで高次元のコンテキストバンディット問題に適用し、データが乏しい状況とデータが豊富な状況の両方で最適なリチャードを達成します。
最後に数値実験を実施して、高次元設定下でのアルゴリズムの効率的な経験的パフォーマンスを示します。
要約(オリジナル)
We study the contextual bandits with knapsack (CBwK) problem under the high-dimensional setting where the dimension of the feature is large. The reward of pulling each arm equals the multiplication of a sparse high-dimensional weight vector and the feature of the current arrival, with additional random noise. In this paper, we investigate how to exploit this sparsity structure to achieve improved regret for the CBwK problem. To this end, we first develop an online variant of the hard thresholding algorithm that performs the sparse estimation in an online manner. We further combine our online estimator with a primal-dual framework, where we assign a dual variable to each knapsack constraint and utilize an online learning algorithm to update the dual variable, thereby controlling the consumption of the knapsack capacity. We show that this integrated approach allows us to achieve a sublinear regret that depends logarithmically on the feature dimension, thus improving the polynomial dependency established in the previous literature. We also apply our framework to the high-dimension contextual bandit problem without the knapsack constraint and achieve optimal regret in both the data-poor regime and the data-rich regime. We finally conduct numerical experiments to show the efficient empirical performance of our algorithms under the high dimensional setting.
arxiv情報
著者 | Wanteng Ma,Dong Xia,Jiashuo Jiang |
発行日 | 2023-11-02 15:40:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google