Neural Combinatorial Clustered Bandits for Recommendation Systems

要約

各ラウンドで、学習エージェント、たとえばレコメンダー システムが、製品などの「アーム」のサブセットを選択し、既知の関数である個々のベース アームの両方に対する報酬を観察する、状況に応じた組み合わせバンディット設定を考慮します。
特徴 (「コンテキスト」と呼ばれる)、およびベース アーム報酬の関数であるスーパー アーム (アームのサブセット)。
エージェントの目標は、未知の報酬関数を同時に学習し、最も高い報酬のアームを選択することです。
たとえば、「報酬」は、推奨された製品の 1 つをクリックするユーザーの確率を表す場合があります。
ただし、従来のバンディット モデルは、パフォーマンスの保証を得るために制限的な報酬関数モデルを採用しています。
私たちはディープ ニューラル ネットワークを利用して未知の報酬関数を推定および学習し、コンテキスト空間の基礎となる構造を利用してラウンドごとにスーパー アームを選択するクラスタリング アプローチを採用するニューラル UCB クラスタリング (NeUClust) を提案します。
以前のニューラル バンディットの作品とは異なり、NeUClust はニューラル ネットワークを使用してスーパー アームの報酬を推定し、スーパー アームを選択するため、既知の最適化オラクルの必要性がなくなりました。
我々は、NeUClust が $\widetilde{O}\left(\widetilde{d}\sqrt{T}\right)$ 後悔を達成することを証明するために、以前のニューラル コンビナトリアル バンディット ワークを自明ではなく拡張します。ここで、$\widetilde{d}$ は、
ニューラル タンジェント カーネル行列の有効次元、$T$ ラウンド数。
現実世界のレコメンデーション データセットの実験では、NeUClust が他のコンテキスト コンビナトリアル アルゴリズムやニューラル バンディット アルゴリズムよりも優れた後悔と報酬を達成することが示されています。

要約(オリジナル)

We consider the contextual combinatorial bandit setting where in each round, the learning agent, e.g., a recommender system, selects a subset of ‘arms,’ e.g., products, and observes rewards for both the individual base arms, which are a function of known features (called ‘context’), and the super arm (the subset of arms), which is a function of the base arm rewards. The agent’s goal is to simultaneously learn the unknown reward functions and choose the highest-reward arms. For example, the ‘reward’ may represent a user’s probability of clicking on one of the recommended products. Conventional bandit models, however, employ restrictive reward function models in order to obtain performance guarantees. We make use of deep neural networks to estimate and learn the unknown reward functions and propose Neural UCB Clustering (NeUClust), which adopts a clustering approach to select the super arm in every round by exploiting underlying structure in the context space. Unlike prior neural bandit works, NeUClust uses a neural network to estimate the super arm reward and select the super arm, thus eliminating the need for a known optimization oracle. We non-trivially extend prior neural combinatorial bandit works to prove that NeUClust achieves $\widetilde{O}\left(\widetilde{d}\sqrt{T}\right)$ regret, where $\widetilde{d}$ is the effective dimension of a neural tangent kernel matrix, $T$ the number of rounds. Experiments on real world recommendation datasets show that NeUClust achieves better regret and reward than other contextual combinatorial and neural bandit algorithms.

arxiv情報

著者 Baran Atalar,Carlee Joe-Wong
発行日 2024-10-18 16:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク