Delay as Payoff in MAB

要約

この論文では、古典的な確率的マルチアーム バンディット (MAB) 問題の変形を調査します。この問題では、エージェントが受け取るペイオフ (コストまたは報酬のいずれか) が遅延し、遅延の大きさに直接対応します。
この設定は、ルートを選択した場合にデータ パケットがネットワークを通過するのにかかる時間 (遅延がエージェントのコストとして機能する場合) など、現実世界の多くのシナリオを忠実にモデル化します。
または、コンテンツを選択した場合にユーザーが Web ページに費やした時間 (遅延がエージェントの報酬として機能する場合)。
私たちの主な貢献は、コストと報酬の両方の設定に厳しい上限と下限を設定することです。
私たちが最初に検討する遅延がコストとして機能するケースについては、$\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + d^* にスケールされる最適な後悔を証明します。
ここで、$T$ は最大ステップ数、$\Delta_i$ は準最適性ギャップ、$d^*$ はアーム間の予想される最小遅延です。
遅延が報酬として機能する場合、$\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + \bar{d}$ の最適な後悔を示します。ここで $\bar d$
予想される 2 番目の最大遅延です。
これらは、$\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + D$ としてスケールされる、一般的な遅延依存のペイオフ設定における残念な点を改善します ($D$ は最大値です)。
遅延の可能性。
私たちの後悔限界はコスト シナリオと報酬シナリオの差を強調しており、コスト シナリオの改善が報酬よりも重要であることを示しています。
最後に、理論的結果に実証的評価を添えます。

要約(オリジナル)

In this paper, we investigate a variant of the classical stochastic Multi-armed Bandit (MAB) problem, where the payoff received by an agent (either cost or reward) is both delayed, and directly corresponds to the magnitude of the delay. This setting models faithfully many real world scenarios such as the time it takes for a data packet to traverse a network given a choice of route (where delay serves as the agent’s cost); or a user’s time spent on a web page given a choice of content (where delay serves as the agent’s reward). Our main contributions are tight upper and lower bounds for both the cost and reward settings. For the case that delays serve as costs, which we are the first to consider, we prove optimal regret that scales as $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + d^*$, where $T$ is the maximal number of steps, $\Delta_i$ are the sub-optimality gaps and $d^*$ is the minimal expected delay amongst arms. For the case that delays serves as rewards, we show optimal regret of $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + \bar{d}$, where $\bar d$ is the second maximal expected delay. These improve over the regret in the general delay-dependent payoff setting, which scales as $\sum_{i:\Delta_i > 0}\frac{\log T}{\Delta_i} + D$, where $D$ is the maximum possible delay. Our regret bounds highlight the difference between the cost and reward scenarios, showing that the improvement in the cost scenario is more significant than for the reward. Finally, we accompany our theoretical results with an empirical evaluation.

arxiv情報

著者 Ofir Schlisselberg,Ido Cohen,Tal Lancewicki,Yishay Mansour
発行日 2024-08-27 15:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク