要約
コンテキスト バンディット アルゴリズムは、コンテキスト情報に基づいて一連の候補の中から最高の報酬を持つ最適なアームを選択することを目的としています。
さまざまなバンディット アルゴリズムは、搾取と探索のジレンマに対処できるため、現実世界のアプリケーションに適用されています。
この論文では、オンライン レコメンデーション シナリオを動機として、グラフ ニューラル ネットワーク (GNN) によって強化されたユーザー間の協調性を活用する、グラフ ニューラル バンディット (GNB) という名前のフレームワークを提案します。
既存の研究のように厳格なユーザー クラスターを推定する代わりに、利用と探索のそれぞれの観点から、推定されたユーザー グラフを通じて「きめの細かい」協力効果をモデル化します。
次に、レコメンデーション戦略を改良するために、推定ユーザー グラフ上で個別の GNN ベースのモデルを活用し、活用と適応探索を行います。
私たちが提案するフレームワークの有効性を実証するために、複数の実際のデータセットに関する理論分析と実験結果を最先端のベースラインと比較して提供します。
要約(オリジナル)
Contextual bandits algorithms aim to choose the optimal arm with the highest reward out of a set of candidates based on the contextual information. Various bandit algorithms have been applied to real-world applications due to their ability of tackling the exploitation-exploration dilemma. Motivated by online recommendation scenarios, in this paper, we propose a framework named Graph Neural Bandits (GNB) to leverage the collaborative nature among users empowered by graph neural networks (GNNs). Instead of estimating rigid user clusters as in existing works, we model the ‘fine-grained’ collaborative effects through estimated user graphs in terms of exploitation and exploration respectively. Then, to refine the recommendation strategy, we utilize separate GNN-based models on estimated user graphs for exploitation and adaptive exploration. Theoretical analysis and experimental results on multiple real data sets in comparison with state-of-the-art baselines are provided to demonstrate the effectiveness of our proposed framework.
arxiv情報
著者 | Yunzhe Qi,Yikun Ban,Jingrui He |
発行日 | 2023-08-21 15:57:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google