Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption

要約

無限の地平線の平均報酬の落ち着きのない盗賊問題を考えます。
我々は、アームの 2 つの動的サブセットを維持する新しい \emph{2 セット ポリシー} を提案します。アームの 1 つのサブセットはほぼ最適な状態分布を持ち、最適ローカル コントロール ルーチンに従ってアクションを実行します。
アームのもう一方のサブセットは最適な状態分布に向けて駆動され、徐々に最初のサブセットにマージされます。
非周期ユニチェーン、非縮退、局所性という穏やかな仮定の下で、$N$ 武装問題に対する 2 セットのポリシーが $O(\exp(-C N))$ の最適性ギャップで漸近的に最適であることを示します。
安定性。
私たちのポリシーは、上記の検証しやすい仮定の下で \emph{指数関数的漸近最適性} を初めて達成しましたが、以前の研究では強力な \emph{グローバル アトラクター} 仮定が必要か、または $O(1/\ しか達成できませんでした)
sqrt{N})$ 最適性ギャップ。
さらに、3 つの仮定のいずれかが違反された場合に指数関数的漸近最適性が達成できない例を示すことで、仮定を弱める際の障害について説明します。
特に、局所的に不安定な落ち着きのないバンディットの大規模なクラスの下限を証明し、局所的な安定性が指数関数的漸近最適性にとって特に基礎であることを示しています。
最後に、シミュレーションを使用して、2 セット ポリシーが特定の RB 問題に関して以前のポリシーを上回り、全体的に競争力のあるパフォーマンスを発揮することを実証します。

要約(オリジナル)

We consider the infinite-horizon average-reward restless bandit problem. We propose a novel \emph{two-set policy} that maintains two dynamic subsets of arms: one subset of arms has a nearly optimal state distribution and takes actions according to an Optimal Local Control routine; the other subset of arms is driven towards the optimal state distribution and gradually merged into the first subset. We show that our two-set policy is asymptotically optimal with an $O(\exp(-C N))$ optimality gap for an $N$-armed problem, under the mild assumptions of aperiodic-unichain, non-degeneracy, and local stability. Our policy is the first to achieve \emph{exponential asymptotic optimality} under the above set of easy-to-verify assumptions, whereas prior work either requires a strong \emph{global attractor} assumption or only achieves an $O(1/\sqrt{N})$ optimality gap. We further discuss obstacles in weakening the assumptions by demonstrating examples where exponential asymptotic optimality is not achievable when any of the three assumptions is violated. Notably, we prove a lower bound for a large class of locally unstable restless bandits, showing that local stability is particularly fundamental for exponential asymptotic optimality. Finally, we use simulations to demonstrate that the two-set policy outperforms previous policies on certain RB problems and performs competitively overall.

arxiv情報

著者 Yige Hong,Qiaomin Xie,Yudong Chen,Weina Wang
発行日 2024-10-17 17:28:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90C40, cs.LG, G.3, math.OC, math.PR パーマリンク