要約
\emph{リンゴの試飲} フィードバックの下でのオンライン二値分類では、学習者は「1」と予測した場合にのみ真のラベルを観察します。
\cite{helmbold2000apple} によって最初に研究されましたが、私たちはこの古典的な部分フィードバック設定を再検討し、組み合わせの観点からオンライン学習可能性を研究しました。
私たちは、リトルストーンの次元が、不可知論的設定におけるリンゴの試飲の厳密な定量的特徴付けを提供し続けることを示し、\cite{helmbold2000apple} によって提起された未解決の質問を解決します。
さらに、実現可能な設定で予想される最小の間違いを厳密に定量化する、有効幅と呼ばれる新しい組み合わせパラメーターを提供します。
当然の結果として、有効幅を使用して、実現可能な設定における最小予想ミス数の \emph{trichotomy} を確立します。
特に、実現可能な設定では、リンゴの試食フィードバックの下で、学習者の予想される間違いの数が $\Theta(1)、\Theta(\sqrt{T})$、または $\Theta(
た)$。
これは、$\Theta(1)$ と $\Theta(T)$ のみが可能な完全情報実現可能設定とは対照的です。
要約(オリジナル)
In online binary classification under \emph{apple tasting} feedback, the learner only observes the true label if it predicts “1′. First studied by \cite{helmbold2000apple}, we revisit this classical partial-feedback setting and study online learnability from a combinatorial perspective. We show that the Littlestone dimension continues to provide a tight quantitative characterization of apple tasting in the agnostic setting, closing an open question posed by \cite{helmbold2000apple}. In addition, we give a new combinatorial parameter, called the Effective width, that tightly quantifies the minimax expected mistakes in the realizable setting. As a corollary, we use the Effective width to establish a \emph{trichotomy} of the minimax expected number of mistakes in the realizable setting. In particular, we show that in the realizable setting, the expected number of mistakes of any learner, under apple tasting feedback, can be $\Theta(1), \Theta(\sqrt{T})$, or $\Theta(T)$. This is in contrast to the full-information realizable setting where only $\Theta(1)$ and $\Theta(T)$ are possible.
arxiv情報
著者 | Vinod Raman,Unique Subedi,Ananth Raman,Ambuj Tewari |
発行日 | 2024-02-09 18:35:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google