要約
古典的なPACモデルのバイナリ分類は、好奇心の強い現象を示します。経験的リスク最小化(ERM)学習者は、実現可能なケースでは次味的ですが、不可知論の場合は最適です。
大まかに言えば、これは、非実現可能な分布$ \ mathcal {d} $は、実現可能な分布よりも学習がより困難であるという事実があります – $ \ mathrm {err}(h^*
_ {\ mathcal {d}})$、$ \ mathcal {d} $ for $ \ mathcal {h} $の最良の仮説の誤差。
したがって、最適な不可知論者学習者は、(学習しやすい)分布で過剰なエラーを発生させることが許可されています$ \ mathcal {d} $
)$は小さい。
Hanneke、Larsen、およびZhivotovskiy(Focs `24)の最近の研究は、$ \ tau $自体を不可知論的エラー用語のパラメーターとして含めることにより、この欠点に対処します。
このよりきめ細かいモデルでは、エラー下限$ \ tau + \ omega \ left(\ sqrt {\ frac {\ frac(d + \ log(1 / \ delta))} {m}}}}}}の緊密さを示します。
+ \ frac {d + \ log(1 / \ delta)} {m} \ right)$ $ \ tau> d / m $で、より高い下限があるかどうかという問題を開いたままにしておきます。
$ \ tau \ emptx d/m $、$ d $は$ \ mathrm {vc}(\ mathcal {h})$を示します。
この作業では、エラー$ c \ cdot \ tau + o \ left(\ sqrt {\ frac {\ tau(d + \ log(1 / \ delta))} {m})を達成する学習者を展示することにより、この質問を解決します。
} + \ frac {d + \ log(1 / \ delta)} {m} \ right)$ for constant $ c \ leq 2.1 $を使用するため、$ \ tau \ emptx d / m $の場合、下限と一致します。
さらに、私たちの学習者は計算上効率的であり、ERM分類器の慎重な集計に基づいており、Hanneke、Larsen、およびZhivotovskiy(Focs `24)の他の2つの質問を進歩させています。
私たちは、私たちのアプローチを改良して定数を2.1から1に下げることができるかどうかという興味深い質問を開いたままにしておきます。
要約(オリジナル)
Binary classification in the classic PAC model exhibits a curious phenomenon: Empirical Risk Minimization (ERM) learners are suboptimal in the realizable case yet optimal in the agnostic case. Roughly speaking, this owes itself to the fact that non-realizable distributions $\mathcal{D}$ are simply more difficult to learn than realizable distributions — even when one discounts a learner’s error by $\mathrm{err}(h^*_{\mathcal{D}})$, the error of the best hypothesis in $\mathcal{H}$ for $\mathcal{D}$. Thus, optimal agnostic learners are permitted to incur excess error on (easier-to-learn) distributions $\mathcal{D}$ for which $\tau = \mathrm{err}(h^*_{\mathcal{D}})$ is small. Recent work of Hanneke, Larsen, and Zhivotovskiy (FOCS `24) addresses this shortcoming by including $\tau$ itself as a parameter in the agnostic error term. In this more fine-grained model, they demonstrate tightness of the error lower bound $\tau + \Omega \left(\sqrt{\frac{\tau (d + \log(1 / \delta))}{m}} + \frac{d + \log(1 / \delta)}{m} \right)$ in a regime where $\tau > d/m$, and leave open the question of whether there may be a higher lower bound when $\tau \approx d/m$, with $d$ denoting $\mathrm{VC}(\mathcal{H})$. In this work, we resolve this question by exhibiting a learner which achieves error $c \cdot \tau + O \left(\sqrt{\frac{\tau (d + \log(1 / \delta))}{m}} + \frac{d + \log(1 / \delta)}{m} \right)$ for a constant $c \leq 2.1$, thus matching the lower bound when $\tau \approx d/m$. Further, our learner is computationally efficient and is based upon careful aggregations of ERM classifiers, making progress on two other questions of Hanneke, Larsen, and Zhivotovskiy (FOCS `24). We leave open the interesting question of whether our approach can be refined to lower the constant from 2.1 to 1, which would completely settle the complexity of agnostic learning.
arxiv情報
| 著者 | Julian Asilis,Mikael Møller Høgsgaard,Grigoris Velegkas |
| 発行日 | 2025-02-13 17:03:03+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google