Near-optimal Per-Action Regret Bounds for Sleeping Bandits

要約

本論文では、スリーピング・バンディット(sleeping bandits)において、各ラウンドで利用可能なアームとその損失が敵対者によって選択される場合の、アクション毎の最適後悔境界を導出する。K$の総武器と、$T$ラウンドの各ラウンドで最大$A$の利用可能な武器の設定において、最もよく知られた上限は$O(Ksqrt{TAln{K}})$であり、内部スリーピング後悔を最小化することによって間接的に得られる。minimaxの$Omega( \sqrt{TA})$ 下界と比較すると、この上界は$Kln{K}$の余分な乗法因子を含む。このギャップに対して、EXP3、EXP3-IX、FTRLをTsallisエントロピーを用いて一般化したものを用いて、アクション毎の後悔を直接最小化することにより、次数$O(Γsqrt{TAln{K}})$、$O(Γsqrt{Tsqrt{AK}})$の最適に近い境界を得る。我々は、EXP4を一般化しながら、我々の結果を、眠っている専門家からの助言がある盗賊の設定に拡張する。これにより、標準的な非睡眠バンディットのための、多くの既存の適応的後悔境界と追跡後悔境界の新しい証明が導かれる。我々の結果を、専門家が自分の信頼度を報告するバンディット版に拡張することで、主に専門家の信頼度の合計に依存する信頼度後悔の新しい境界が導かれる。我々は下界を証明し、どのようなミニマックス最適アルゴリズムに対しても、後悔が$T$に線形であるが、アクティブなラウンド数に線形であるアクションが存在することを示す。

要約(オリジナル)

We derive near-optimal per-action regret bounds for sleeping bandits, in which both the sets of available arms and their losses in every round are chosen by an adversary. In a setting with $K$ total arms and at most $A$ available arms in each round over $T$ rounds, the best known upper bound is $O(K\sqrt{TA\ln{K}})$, obtained indirectly via minimizing internal sleeping regrets. Compared to the minimax $\Omega(\sqrt{TA})$ lower bound, this upper bound contains an extra multiplicative factor of $K\ln{K}$. We address this gap by directly minimizing the per-action regret using generalized versions of EXP3, EXP3-IX and FTRL with Tsallis entropy, thereby obtaining near-optimal bounds of order $O(\sqrt{TA\ln{K}})$ and $O(\sqrt{T\sqrt{AK}})$. We extend our results to the setting of bandits with advice from sleeping experts, generalizing EXP4 along the way. This leads to new proofs for a number of existing adaptive and tracking regret bounds for standard non-sleeping bandits. Extending our results to the bandit version of experts that report their confidences leads to new bounds for the confidence regret that depends primarily on the sum of experts’ confidences. We prove a lower bound, showing that for any minimax optimal algorithms, there exists an action whose regret is sublinear in $T$ but linear in the number of its active rounds.

arxiv情報

著者 Quan Nguyen,Nishant A. Mehta
発行日 2024-03-02 21:22:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク