Impatient Bandits: Optimizing Recommendations for the Long-Term Without Delay

要約

レコメンダー システムは、オンライン プラットフォームの至る所にある機能です。
ユーザーの長期的な満足度を高めるという明確な使命がますます高まっています。
これに関連して、コンテンツ探索タスクを研究し、遅延報酬を伴う多腕バンディット問題として形式化します。
学習シグナルの選択には明らかなトレードオフがあることが観察されています。つまり、完全な報酬が利用可能になるまで待つと数週間かかる可能性があり、学習の速度が低下します。一方、短期的な代理報酬の測定は、実際の長期的な目標を不完全にしか反映しません。
私たちはこの課題に 2 つのステップで取り組みます。
まず、これまでに得られたすべての情報を組み込んだ遅延報酬の予測モデルを開発します。
完全な観察結果と部分的 (短期または中期) 結果がベイジアン フィルターを通じて結合され、確率的信念が得られます。
次に、この新しい予測モデルを利用するバンディット アルゴリズムを考案します。
このアルゴリズムは、探索と活用のバランスを注意深く取ることによって、長期的な成功につながるコンテンツを特定する方法を迅速に学習します。
私たちはこのアプローチをポッドキャストの推奨問題に適用し、ユーザーが 2 か月にわたって繰り返し視聴する番組を特定しようとします。
私たちは、短期的なプロキシを最適化するアプローチや長期的な結果が完全に実現されるのを待つアプローチと比較して、私たちのアプローチが大幅に優れたパフォーマンスをもたらすことを経験的に検証しています。

要約(オリジナル)

Recommender systems are a ubiquitous feature of online platforms. Increasingly, they are explicitly tasked with increasing users’ long-term satisfaction. In this context, we study a content exploration task, which we formalize as a multi-armed bandit problem with delayed rewards. We observe that there is an apparent trade-off in choosing the learning signal: Waiting for the full reward to become available might take several weeks, hurting the rate at which learning happens, whereas measuring short-term proxy rewards reflects the actual long-term goal only imperfectly. We address this challenge in two steps. First, we develop a predictive model of delayed rewards that incorporates all information obtained to date. Full observations as well as partial (short or medium-term) outcomes are combined through a Bayesian filter to obtain a probabilistic belief. Second, we devise a bandit algorithm that takes advantage of this new predictive model. The algorithm quickly learns to identify content aligned with long-term success by carefully balancing exploration and exploitation. We apply our approach to a podcast recommendation problem, where we seek to identify shows that users engage with repeatedly over two months. We empirically validate that our approach results in substantially better performance compared to approaches that either optimize for short-term proxies, or wait for the long-term outcome to be fully realized.

arxiv情報

著者 Thomas M. McDonald,Lucas Maystre,Mounia Lalmas,Daniel Russo,Kamil Ciosek
発行日 2023-07-20 16:11:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク