From Restless to Contextual: A Thresholding Bandit Approach to Improve Finite-horizon Performance

要約

オンラインの落ち着きのない盗賊は、各エージェントをマルコフ決定プロセス(MDP)として表す州の移行と予算の制約を組み込むことにより、古典的な文脈的盗賊を拡張します。
このフレームワークは、有限ホリゾンの戦略的リソース割り当てにとって重要であり、長期的な利益のために限られた費用のかかる介入を最適化します。
ただし、各エージェントの基礎となるMDPを学習することは、有限ホリゾンの設定で大きな課題をもたらします。
学習を促進するために、問題をスケーラブルな予算のしきい値のコンテキストバンディット問題として再定式化し、州の移行を報酬設計に慎重に統合し、しきい値を超えるアクションメリットを持つエージェントの識別に焦点を当てます。
単純な2つの状態の設定でOracle貪欲なソリューションの最適性を確立し、不均一なエージェントを伴うオンラインマルチステート設定で最適な一定の後悔と、介入なしの結果の知識を実現するアルゴリズムを提案します。
アルゴリズムは、既存のオンラインの落ち着きのない盗賊方法を上回り、有限ホリゾンのパフォーマンスの大幅な改善を提供することを数値的に示しています。

要約(オリジナル)

Online restless bandits extend classic contextual bandits by incorporating state transitions and budget constraints, representing each agent as a Markov Decision Process (MDP). This framework is crucial for finite-horizon strategic resource allocation, optimizing limited costly interventions for long-term benefits. However, learning the underlying MDP for each agent poses a major challenge in finite-horizon settings. To facilitate learning, we reformulate the problem as a scalable budgeted thresholding contextual bandit problem, carefully integrating the state transitions into the reward design and focusing on identifying agents with action benefits exceeding a threshold. We establish the optimality of an oracle greedy solution in a simple two-state setting, and propose an algorithm that achieves minimax optimal constant regret in the online multi-state setting with heterogeneous agents and knowledge of outcomes under no intervention. We numerically show that our algorithm outperforms existing online restless bandit methods, offering significant improvements in finite-horizon performance.

arxiv情報

著者 Jiamin Xu,Ivan Nazarov,Aditya Rastogi,África Periáñez,Kyra Gan
発行日 2025-02-07 18:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク