要約
コンテキストに応じた多腕バンディット (MAB) でのユーザー クラスターの識別を研究しています。
Contextual MAB は、コンテンツの推奨やオンライン広告など、多くの実際のアプリケーションにとって効果的なツールです。
実際には、ユーザーの依存関係はユーザーの行動、つまり報酬において重要な役割を果たします。
同様のユーザーをクラスター化すると、報酬の見積もりの質が向上し、より効果的なコンテンツの推奨とターゲットを絞った広告につながります。
従来のクラスタリング設定とは異なり、段階的に推定される未知のバンディット パラメータに基づいてユーザーをクラスタリングします。
特に、コンテキスト MAB におけるクラスタ検出の問題を定義し、ローカル クラスタリング手順を組み込んだバンディット アルゴリズム LOCB を提案します。
また、クラスタリングの正確性と効率性、およびそのリグレット バウンドの観点から、LOCB に関する理論的分析を提供します。
最後に、提案されたアルゴリズムをさまざまな側面から評価します。これは、最先端のベースラインよりも優れています。
要約(オリジナル)
We study identifying user clusters in contextual multi-armed bandits (MAB). Contextual MAB is an effective tool for many real applications, such as content recommendation and online advertisement. In practice, user dependency plays an essential role in the user’s actions, and thus the rewards. Clustering similar users can improve the quality of reward estimation, which in turn leads to more effective content recommendation and targeted advertising. Different from traditional clustering settings, we cluster users based on the unknown bandit parameters, which will be estimated incrementally. In particular, we define the problem of cluster detection in contextual MAB, and propose a bandit algorithm, LOCB, embedded with local clustering procedure. And, we provide theoretical analysis about LOCB in terms of the correctness and efficiency of clustering and its regret bound. Finally, we evaluate the proposed algorithm from various aspects, which outperforms state-of-the-art baselines.
arxiv情報
著者 | Yikun Ban,Jingrui He |
発行日 | 2023-03-24 15:05:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google