Information-Theoretic Regret Bounds for Bandits with Fixed Expert Advice

要約

専門家が固定され、アクションの分布が既知である場合、専門家のアドバイスを使用してバンディットの問題を調査します。
以前の分析を改善して、この設定での後悔は、専門家間の類似性を測定する情報理論量によって制御されることを示します。
いくつかの自然な特殊なケースでは、これにより、専門家が十分に類似している場合、ゼロに任意に近づくことができる EXP4 の最初のリグレット バウンドを取得できます。
別のアルゴリズムでは、KL 発散の観点からエキスパート間の類似性を説明する別の境界を提供し、場合によってはこの境界が EXP4 の境界よりも小さくなる可能性があることを示します。
さらに、分析したアルゴリズムが場合によってはほぼ最適であることを示す特定のクラスの専門家に下限を提供します。

要約(オリジナル)

We investigate the problem of bandits with expert advice when the experts are fixed and known distributions over the actions. Improving on previous analyses, we show that the regret in this setting is controlled by information-theoretic quantities that measure the similarity between experts. In some natural special cases, this allows us to obtain the first regret bound for EXP4 that can get arbitrarily close to zero if the experts are similar enough. While for a different algorithm, we provide another bound that describes the similarity between the experts in terms of the KL-divergence, and we show that this bound can be smaller than the one of EXP4 in some cases. Additionally, we provide lower bounds for certain classes of experts showing that the algorithms we analyzed are nearly optimal in some cases.

arxiv情報

著者 Khaled Eldowa,Nicolò Cesa-Bianchi,Alberto Maria Metelli,Marcello Restelli
発行日 2023-03-14 17:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク