Improved Regret Bounds for Bandits with Expert Advice

要約

この研究ノートでは、専門家のアドバイスを使って盗賊の問題を再検討します。
制限されたフィードバック モデルの下で、最悪の場合の後悔に対する次数 $\sqrt{K T \ln(N/K)}$ の下限を証明します。ここで、$K$ はアクションの数、$N>K$ は
専門家の数、そして期間は $T$ です。
これは、以前に知られている同じ次数の上限と一致し、$\sqrt{K T (\ln N) / (\ln K)}$ の利用可能な最良の下限を改善します。
標準フィードバック モデルについては、専門家間の合意に依存し、以前の結果と比較して対数的な改善をもたらす新しいインスタンス ベースの上限を証明します。

要約(オリジナル)

In this research note, we revisit the bandits with expert advice problem. Under a restricted feedback model, we prove a lower bound of order $\sqrt{K T \ln(N/K)}$ for the worst-case regret, where $K$ is the number of actions, $N>K$ the number of experts, and $T$ the time horizon. This matches a previously known upper bound of the same order and improves upon the best available lower bound of $\sqrt{K T (\ln N) / (\ln K)}$. For the standard feedback model, we prove a new instance-based upper bound that depends on the agreement between the experts and provides a logarithmic improvement compared to prior results.

arxiv情報

著者 Nicolò Cesa-Bianchi,Khaled Eldowa,Emmanuel Esposito,Julia Olkhovskaya
発行日 2024-06-24 17:14:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク