Indexability is Not Enough for Whittle: Improved, Near-Optimal Algorithms for Restless Bandits

要約

複数のアクションを伴う落ち着きのない多腕バンディット (RMAB) を計画する問題を研究します。
これは、マルチチャネル通信、監視およびマシンのメンテナンス タスク、ヘルスケアなどのアプリケーションを備えたマルチエージェント システムの一般的なモデルです。
ラグランジュの緩和に基づくホイットル指数ポリシーは、特定の条件下での単純さとほぼ最適性のために、これらの設定で広く使用されています。
この作業では、最初に、RMAB がインデックス可能であっても、Whittle インデックス ポリシーが単純で実質的に適切な RMAB 設定で失敗する可能性があることを示します。
最適性の保証が失敗する理由と、漸近的な最適性が実際に関連する計画範囲にうまく変換されない理由について説明します。
次に、平均場法に基づく代替計画アルゴリズムを提案します。これは、Whittle インデックス ポリシーで必要とされる厳密な構造的仮定なしで、多数のアームを使用してほぼ最適なポリシーを証明可能かつ効率的に取得できます。
これは、既存の研究からいくつかの改善を加えたアイデアを借りています。私たちのアプローチはハイパーパラメーターを使用せず、改善された非漸近的分析を提供します。
(b) 方策の報酬が信頼できることを示す高確率限界。
(c)アームの数に関して、このアルゴリズムの準最適性の下限を一致させ、このように私たちの限界の厳しさを示します。
私たちの広範な実験分析は、平均場アプローチが他のベースラインと一致するか、それを上回ることを示しています。

要約(オリジナル)

We study the problem of planning restless multi-armed bandits (RMABs) with multiple actions. This is a popular model for multi-agent systems with applications like multi-channel communication, monitoring and machine maintenance tasks, and healthcare. Whittle index policies, which are based on Lagrangian relaxations, are widely used in these settings due to their simplicity and near-optimality under certain conditions. In this work, we first show that Whittle index policies can fail in simple and practically relevant RMAB settings, even when the RMABs are indexable. We discuss why the optimality guarantees fail and why asymptotic optimality may not translate well to practically relevant planning horizons. We then propose an alternate planning algorithm based on the mean-field method, which can provably and efficiently obtain near-optimal policies with a large number of arms, without the stringent structural assumptions required by the Whittle index policies. This borrows ideas from existing research with some improvements: our approach is hyper-parameter free, and we provide an improved non-asymptotic analysis which has: (a) no requirement for exogenous hyper-parameters and tighter polynomial dependence on known problem parameters; (b) high probability bounds which show that the reward of the policy is reliable; and (c) matching sub-optimality lower bounds for this algorithm with respect to the number of arms, thus demonstrating the tightness of our bounds. Our extensive experimental analysis shows that the mean-field approach matches or outperforms other baselines.

arxiv情報

著者 Abheek Ghosh,Dheeraj Nagaraj,Manish Jain,Milind Tambe
発行日 2023-02-28 18:30:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, math.OC パーマリンク