Cascading Reinforcement Learning

要約

Cascading Bandit は、推奨システムやオンライン広告への適用可能性により、近年人気が高まっています。
カスケード バンディット モデルでは、各タイムステップで、エージェントはアイテムのプールから順序付けられたアイテムのサブセット (アイテム リストと呼ばれる) を推奨します。各アイテムは未知の誘引確率に関連付けられています。
次に、ユーザーはリストを調べ、最初の魅力的なアイテム (存在する場合) をクリックすると、エージェントは報酬を受け取ります。
エージェントの目標は、期待される累積報酬を最大化することです。
しかし、カスケードバンディットに関する先行文献では、推奨事項に対するユーザーの状態 (過去の行動など) の影響や、セッションの進行に伴う状態の変化が無視されています。
この事実を動機として、ユーザーの状態と状態遷移が意思決定に与える影響を考慮する、一般化されたカスケード RL フレームワークを提案します。
カスケード RL では、誘致確率が大きいだけでなく、適切な後継状態につながるアイテムを選択する必要があります。
これは、組み合わせ動作空間により、膨大な計算上の課題を課します。
この課題に取り組むために、値関数のプロパティを詳しく調べ、最適な項目リストを効率的に見つけるオラクル BestPerm を設計します。
BestPerm を搭載し、計算効率とサンプル効率の両方に優れた 2 つのアルゴリズム CascadingVI と CascadingBPI を開発し、最適に近いリグアランスとサンプルの複雑さの保証を提供します。
さらに、実際に既存の RL アルゴリズムを直接適応した場合と比較して、アルゴリズムの計算効率とサンプル効率が向上していることを示す実験を紹介します。

要約(オリジナル)

Cascading bandits have gained popularity in recent years due to their applicability to recommendation systems and online advertising. In the cascading bandit model, at each timestep, an agent recommends an ordered subset of items (called an item list) from a pool of items, each associated with an unknown attraction probability. Then, the user examines the list, and clicks the first attractive item (if any), and after that, the agent receives a reward. The goal of the agent is to maximize the expected cumulative reward. However, the prior literature on cascading bandits ignores the influences of user states (e.g., historical behaviors) on recommendations and the change of states as the session proceeds. Motivated by this fact, we propose a generalized cascading RL framework, which considers the impact of user states and state transition into decisions. In cascading RL, we need to select items not only with large attraction probabilities but also leading to good successor states. This imposes a huge computational challenge due to the combinatorial action space. To tackle this challenge, we delve into the properties of value functions, and design an oracle BestPerm to efficiently find the optimal item list. Equipped with BestPerm, we develop two algorithms CascadingVI and CascadingBPI, which are both computationally-efficient and sample-efficient, and provide near-optimal regret and sample complexity guarantees. Furthermore, we present experiments to show the improved computational and sample efficiencies of our algorithms compared to straightforward adaptations of existing RL algorithms in practice.

arxiv情報

著者 Yihan Du,R. Srikant,Wei Chen
発行日 2024-03-12 15:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク