Multiclass Online Learnability under Bandit Feedback

要約

私たちはバンディットのフィードバックの下でオンラインのマルチクラス分類を研究しています。
ラベル空間が無制限の場合でも、Bandit Littlestone 次元の有限性が、Bandit オンライン マルチクラスの学習可能性にとって必要かつ十分であることを示すことで、Daniely と Helbertal [2013] の結果を拡張します。
さらに、完全情報設定とは異なり、逐次均一収束は必要ですが、バンディットのオンライン学習可能性には十分ではないことを示します。
私たちの結果は、ラベル空間が制限されていない場合でも、Littlestone 次元が完全情報設定でのオンライン マルチクラスの学習可能性を特徴付けることを示した Hanneke、Moran、Raman、Subedi、および Tewari による最近の研究 [2023] を補完します。

要約(オリジナル)

We study online multiclass classification under bandit feedback. We extend the results of Daniely and Helbertal [2013] by showing that the finiteness of the Bandit Littlestone dimension is necessary and sufficient for bandit online multiclass learnability even when the label space is unbounded. Moreover, we show that, unlike the full-information setting, sequential uniform convergence is necessary but not sufficient for bandit online learnability. Our result complements the recent work by Hanneke, Moran, Raman, Subedi, and Tewari [2023] who show that the Littlestone dimension characterizes online multiclass learnability in the full-information setting even when the label space is unbounded.

arxiv情報

著者 Ananth Raman,Vinod Raman,Unique Subedi,Ambuj Tewari
発行日 2023-09-20 14:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク