Adaptively Learning to Select-Rank in Online Platforms

要約

ランキング アルゴリズムは、e コマース サイトからコンテンツ ストリーミング サービスに至るまで、さまざまなオンライン プラットフォームの基礎です。
私たちの研究は、ユーザーエクスペリエンスをパーソナライズするための重要な要素である、異種ユーザーの候補プールから項目を適応的にランク付けするという課題に取り組んでいます。
私たちは、ランク付けされたリストに対する全体的なユーザー満足度を最適化することを目的として、多様なユーザーの好みとアイテムの位置のさまざまな影響を考慮したユーザー応答モデルを開発します。
私たちはこの問題を、各ランク付けされたリストをアクションとして使用して、コンテキストに応じたバンディットのフレームワーク内で組み立てます。
私たちのアプローチには、予測されるユーザー満足度スコアを調整するための信頼限界が組み込まれており、これらの調整されたスコアを最大化するランキング アクションが選択され、最大重みの不完全マッチングによって効率的に解決されます。
私たちのアルゴリズムは、
ユーザーの応答は一般化された線形モデルに従うという仮定。
この後悔により、アンビエント アクション空間への依存が軽減されます。アンビエント アクション空間のカーディナリティは $N$ と $K$ とともに指数関数的に増加します (したがって、UCB やトンプソン サンプリングなどの既存の適応学習アルゴリズムの直接適用が不可能になります)。
シミュレートされたデータセットと現実世界のデータセットの両方で実施さ​​れた実験により、私たちのアルゴリズムがベースラインよりも優れていることが実証されました。

要約(オリジナル)

Ranking algorithms are fundamental to various online platforms across e-commerce sites to content streaming services. Our research addresses the challenge of adaptively ranking items from a candidate pool for heterogeneous users, a key component in personalizing user experience. We develop a user response model that considers diverse user preferences and the varying effects of item positions, aiming to optimize overall user satisfaction with the ranked list. We frame this problem within a contextual bandits framework, with each ranked list as an action. Our approach incorporates an upper confidence bound to adjust predicted user satisfaction scores and selects the ranking action that maximizes these adjusted scores, efficiently solved via maximum weight imperfect matching. We demonstrate that our algorithm achieves a cumulative regret bound of $O(d\sqrt{NKT})$ for ranking $K$ out of $N$ items in a $d$-dimensional context space over $T$ rounds, under the assumption that user responses follow a generalized linear model. This regret alleviates dependence on the ambient action space, whose cardinality grows exponentially with $N$ and $K$ (thus rendering direct application of existing adaptive learning algorithms — such as UCB or Thompson sampling — infeasible). Experiments conducted on both simulated and real-world datasets demonstrate our algorithm outperforms the baseline.

arxiv情報

著者 Jingyuan Wang,Perry Dong,Ying Jin,Ruohan Zhan,Zhengyuan Zhou
発行日 2024-06-07 15:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク