Scalable Neural Contextual Bandit for Recommender Systems


高品質のレコメンダー システムは、ユーザーとの効果的かつ探索的な対話を通じて、革新的で関連性の高いコンテンツの両方を提供する必要があります。
しかし、多くの既存のレコメンダー システムのバックボーンを形成する教師あり学習ベースのニューラル ネットワークは、認識されているユーザーの興味のみを活用しており、未知のユーザーの好みを効率的に明らかにするという点では不十分です。
ニューラル コンテキスト バンディット アルゴリズムは、ニューラル ネットワークを介したオンライン探索の実現に向けてある程度の進歩が見られますが、計算量が膨大なため、現実世界のレコメンダー システムでの広範な採用が妨げられています。
この研究では、レコメンダー システム用のスケーラブルなサンプル効率の高いニューラル コンテキスト バンディット アルゴリズムを提案します。
これを行うために、大規模なトンプソン サンプリングを可能にするエピステミック ニューラル ネットワーク アーキテクチャであるエピステミック ニューラル レコメンデーション (ENR) を設計します。
現実世界のタスクを使った 2 つの異なる大規模実験で、ENR は最先端のニューラル コンテキスト バンディット アルゴリズムと比較して、クリックスルー率とユーザー評価をそれぞれ少なくとも 9% と 6% 大幅に向上させました。
さらに、最高のパフォーマンスを発揮するベースライン アルゴリズムと比較して、少なくとも 29% 少ないユーザー インタラクションで同等のパフォーマンスを実現します。
驚くべきことに、ENR はこれらの改善を達成しながら、ニューラル コンテキスト バンディット ベースライン アルゴリズムよりも桁違いに少ない計算リソースを必要とします。


High-quality recommender systems ought to deliver both innovative and relevant content through effective and exploratory interactions with users. Yet, supervised learning-based neural networks, which form the backbone of many existing recommender systems, only leverage recognized user interests, falling short when it comes to efficiently uncovering unknown user preferences. While there has been some progress with neural contextual bandit algorithms towards enabling online exploration through neural networks, their onerous computational demands hinder widespread adoption in real-world recommender systems. In this work, we propose a scalable sample-efficient neural contextual bandit algorithm for recommender systems. To do this, we design an epistemic neural network architecture, Epistemic Neural Recommendation (ENR), that enables Thompson sampling at a large scale. In two distinct large-scale experiments with real-world tasks, ENR significantly boosts click-through rates and user ratings by at least 9% and 6% respectively compared to state-of-the-art neural contextual bandit algorithms. Furthermore, it achieves equivalent performance with at least 29% fewer user interactions compared to the best-performing baseline algorithm. Remarkably, while accomplishing these improvements, ENR demands orders of magnitude fewer computational resources than neural contextual bandit baseline algorithms.


著者 Zheqing Zhu,Benjamin Van Roy
発行日 2023-06-26 16:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.IR パーマリンク