Rotting Infinitely Many-armed Bandits beyond the Worst-case Rotting: An Adaptive Approach

要約

この研究では、腐敗した環境における無数の武装盗賊の問題を考慮します。この問題では、腕を引っ張るたびに平均報酬が減少する可能性がありますが、それ以外の場合は変化しません。
報酬の減衰に関する問題依存の特性を捉えた 2 つのシナリオを検討します。1 つは、累積的な腐敗量が $V_T$ に制限されるシナリオであり、低速腐敗シナリオと呼ばれます。もう 1 つは、腐敗インスタンスの数が $V_T$ に制限されるシナリオです。
$S_T$ によって境界が定められており、突然の腐敗シナリオと呼ばれます。
報酬の腐りによって生じる課題に対処するために、報酬の腐りによって生じるバイアスと分散のトレードオフを管理するように設計された、適応スライディング ウィンドウを備えた UCB を利用するアルゴリズムを導入します。
私たちが提案したアルゴリズムは、遅い腐敗シナリオと突然の腐敗シナリオの両方に対して厳しいリグレス限界を達成します。
最後に、合成データセットを使用してアルゴリズムのパフォーマンスを実証します。

要約(オリジナル)

In this study, we consider the infinitely many armed bandit problems in rotting environments, where the mean reward of an arm may decrease with each pull, while otherwise, it remains unchanged. We explore two scenarios capturing problem-dependent characteristics regarding the decay of rewards: one in which the cumulative amount of rotting is bounded by $V_T$, referred to as the slow-rotting scenario, and the other in which the number of rotting instances is bounded by $S_T$, referred to as the abrupt-rotting scenario. To address the challenge posed by rotting rewards, we introduce an algorithm that utilizes UCB with an adaptive sliding window, designed to manage the bias and variance trade-off arising due to rotting rewards. Our proposed algorithm achieves tight regret bounds for both slow and abrupt rotting scenarios. Lastly, we demonstrate the performance of our algorithms using synthetic datasets.

arxiv情報

著者 Jung-hun Kim,Milan Vojnovic,Se-Young Yun
発行日 2024-04-22 14:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク