要約
コンテキスト バンディット学習は、最新の大規模レコメンデーション システムでますます好まれています。
コンテキスト情報と利用可能なユーザーまたはアイテムの機能をより効果的に活用するために、ニューラル ネットワークの統合が導入され、コンテキスト バンディット学習が強化され、学界と産業界の両方から大きな関心を集めています。
ただし、各アイテムまたはユーザーが個別のバンディット アームに対応する可能性がある大規模なレコメンデーション システムで、ばらばらのニューラル コンテキスト バンディット ソリューションを実装する場合、大きな課題が発生します。
推奨すべきアイテムの数が膨大であるため、実際の運用環境での展開には大きなハードルが生じます。
このペーパーでは、すべての推奨アイテムを 1 つの単一モデルで提供する共同ニューラル コンテキスト バンディット ソリューションに焦点を当てます。
出力は、予測報酬 $\mu$、不確実性 $\sigma$、および活用と探索のバランスを取るハイパーパラメータ $\alpha$ ($\mu + \alpha \sigma$ など) で構成されます。
パラメータ $\alpha$ の調整は通常ヒューリスティックであり、確率的な性質のため実際には複雑です。
この課題に対処するために、関節神経コンテキスト バンディット モデルの不確実性 $\sigma$ に関する理論分析と実験結果の両方を提供します。
私たちの分析により、$\alpha$ は最後の隠れ層のサイズ $F$ と近似平方根の関係を示し、訓練データの量 $N$ と逆平方根の関係、つまり $\sigma \propto \sqrt{
\frac{F}{N}}$。
実際の産業データを使用して実施された実験は、理論的分析と一致しており、モデルの動作を理解するのに役立ち、オフライン トレーニングとオンライン展開の両方でのハイパー パラメーターの調整を支援します。
要約(オリジナル)
Contextual bandit learning is increasingly favored in modern large-scale recommendation systems. To better utlize the contextual information and available user or item features, the integration of neural networks have been introduced to enhance contextual bandit learning and has triggered significant interest from both academia and industry. However, a major challenge arises when implementing a disjoint neural contextual bandit solution in large-scale recommendation systems, where each item or user may correspond to a separate bandit arm. The huge number of items to recommend poses a significant hurdle for real world production deployment. This paper focuses on a joint neural contextual bandit solution which serves all recommending items in one single model. The output consists of a predicted reward $\mu$, an uncertainty $\sigma$ and a hyper-parameter $\alpha$ which balances exploitation and exploration, e.g., $\mu + \alpha \sigma$. The tuning of the parameter $\alpha$ is typically heuristic and complex in practice due to its stochastic nature. To address this challenge, we provide both theoretical analysis and experimental findings regarding the uncertainty $\sigma$ of the joint neural contextual bandit model. Our analysis reveals that $\alpha$ demonstrates an approximate square root relationship with the size of the last hidden layer $F$ and inverse square root relationship with the amount of training data $N$, i.e., $\sigma \propto \sqrt{\frac{F}{N}}$. The experiments, conducted with real industrial data, align with the theoretical analysis, help understanding model behaviors and assist the hyper-parameter tuning during both offline training and online deployment.
arxiv情報
著者 | Hongbo Guo,Zheqing Zhu |
発行日 | 2024-06-04 17:38:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google