The Real Price of Bandit Information in Multiclass Classification

要約

バンディット フィードバックを使用した多クラス分類の古典的な問題 (Kakade、Shalev-Shwartz、Tewari、2008) を再検討します。この問題では、各入力は $K$ の可能なラベルの 1 つに分類され、フィードバックは予測されたラベルが正しいかどうかに制限されます。
私たちの主な調査は、ラベル $K$ の数への依存性と、この設定での $T$ ステップのリグレス限界が既存の $\smash{\sqrt{KT}}$ 依存性を超えて改善できるかどうかに関するものです。
アルゴリズム。
私たちの主な貢献は、バンディット マルチクラスのミニマックス リグレアメントが実際にはより微妙であり、$\smash{\widetilde{\Theta}\left(\min \left\{|\mathcal{H}|
+ \sqrt{T}, \sqrt{KT \log |{\mathcal{H}|}} \right\} \right) }$、ここで $\mathcal{H}$ は基礎となる (有限) 仮説クラスです。
特に、中程度のサイズの仮説クラスに対して従来のアルゴリズムよりも改善された、リグレット $\smash{\widetilde{O}(|\mathcal{H}|+\sqrt{T})}$ を保証する新しいバンディット分類アルゴリズムを提案します。
、すべてのパラメーター領域における上限 (対数因子まで) の厳密性を確立する一致する下限を与えます。

要約(オリジナル)

We revisit the classical problem of multiclass classification with bandit feedback (Kakade, Shalev-Shwartz and Tewari, 2008), where each input classifies to one of $K$ possible labels and feedback is restricted to whether the predicted label is correct or not. Our primary inquiry is with regard to the dependency on the number of labels $K$, and whether $T$-step regret bounds in this setting can be improved beyond the $\smash{\sqrt{KT}}$ dependence exhibited by existing algorithms. Our main contribution is in showing that the minimax regret of bandit multiclass is in fact more nuanced, and is of the form $\smash{\widetilde{\Theta}\left(\min \left\{|\mathcal{H}| + \sqrt{T}, \sqrt{KT \log |{\mathcal{H}|}} \right\} \right) }$, where $\mathcal{H}$ is the underlying (finite) hypothesis class. In particular, we present a new bandit classification algorithm that guarantees regret $\smash{\widetilde{O}(|\mathcal{H}|+\sqrt{T})}$, improving over classical algorithms for moderately-sized hypothesis classes, and give a matching lower bound establishing tightness of the upper bounds (up to log-factors) in all parameter regimes.

arxiv情報

著者 Liad Erez,Alon Cohen,Tomer Koren,Yishay Mansour,Shay Moran
発行日 2024-05-16 12:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク