Online Clustering of Bandits with Misspecified User Models

要約

コンテキスト線形バンディットは、アームの特徴が与えられると、学習エージェントが長期的に累積報酬を最大化するために各ラウンドでアームを選択する重要なオンライン学習問題です。
バンディットのクラスタリング (CB) と呼ばれる一連の作業は、ユーザーの好みに対する協調効果を利用し、古典的な線形バンディット アルゴリズムに比べて大幅な改善を示しています。
ただし、既存の CB アルゴリズムは明確に指定された線形ユーザー モデルを必要とし、この重要な前提が当てはまらない場合には失敗する可能性があります。
堅牢な CB アルゴリズムを、ユーザー モデルの指定が間違っている、より現実的なシナリオ向けに設計できるかどうかは、未解決の問題のままです。
この論文では、ユーザー モデルで期待される報酬が完全な線形モデルから乱される可能性がある、誤って指定されたユーザー モデルによるバンディットのクラスタリング (CBMUM) という重要な問題を初めて提示します。
我々は、モデルの仕様の誤りによって引き起こされる不正確なユーザー嗜好推定と誤ったクラスタリングに対応できる 2 つの堅牢な CB アルゴリズム、RCLUMB と RSCLUMB (それぞれ動的グラフとセットで学習されたクラスタリング構造を表す) を考案しました。
以前の CB の研究よりも穏やかな仮定の下で、アルゴリズムの残念な上限 $O(\epsilon_*T\sqrt{md\log T} + d\sqrt{mT}\log T)$ を証明しました (特に、我々は、
腕の分布に関する制限的な技術的仮定)、これは $T$ で対数因数まで漸近的に下限と一致し、いくつかの縮退ケースにおける最先端の結果とも一致します。
ユーザーの誤ったクラスタリングによって引き起こされた後悔を証明する手法は非常に一般的であり、独立して興味深いものになる可能性があります。
合成データと実世界データの両方での実験では、以前のアルゴリズムを上回るパフォーマンスが示されています。

要約(オリジナル)

The contextual linear bandit is an important online learning problem where given arm features, a learning agent selects an arm at each round to maximize the cumulative rewards in the long run. A line of works, called the clustering of bandits (CB), utilize the collaborative effect over user preferences and have shown significant improvements over classic linear bandit algorithms. However, existing CB algorithms require well-specified linear user models and can fail when this critical assumption does not hold. Whether robust CB algorithms can be designed for more practical scenarios with misspecified user models remains an open problem. In this paper, we are the first to present the important problem of clustering of bandits with misspecified user models (CBMUM), where the expected rewards in user models can be perturbed away from perfect linear models. We devise two robust CB algorithms, RCLUMB and RSCLUMB (representing the learned clustering structure with dynamic graph and sets, respectively), that can accommodate the inaccurate user preference estimations and erroneous clustering caused by model misspecifications. We prove regret upper bounds of $O(\epsilon_*T\sqrt{md\log T} + d\sqrt{mT}\log T)$ for our algorithms under milder assumptions than previous CB works (notably, we move past a restrictive technical assumption on the distribution of the arms), which match the lower bound asymptotically in $T$ up to logarithmic factors, and also match the state-of-the-art results in several degenerate cases. The techniques in proving the regret caused by misclustering users are quite general and may be of independent interest. Experiments on both synthetic and real-world data show our outperformance over previous algorithms.

arxiv情報

著者 Zhiyong Wang,Jize Xie,Xutong Liu,Shuai Li,John C. S. Lui
発行日 2023-10-04 10:40:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク