Proper Learnability and the Role of Unlabeled Data

要約

適切な学習とは、学習者が基礎となる仮説クラス$ h $の予測因子を放出しなければならない設定を指し、多くの場合、単純なアルゴリズム形式(例:経験的リスク最小化(ERM)、構造リスク最小化(SRM))を持つ学習者につながります。
ただし、適切な学習の制限は、不適切にしか学習できない問題が存在することです。
マルチクラス分類で。
したがって、私たちは次のように尋ねます:仮説クラスまたは学習者に提供される情報のどの仮定の下で、適切に学習できる問題はありますか?
最初に、非標識データ分布が与えられた場合、分布の正則化、ランダム化された正則化の一般化によって支配される最適な適切な学習者が常に存在することを実証します。
この設定を配布固定PACモデルと呼び、すべての分布における最悪のケースのパフォーマンスについて学習者を評価し続けます。
私たちの結果は、すべてのメトリック損失関数と有限の学習問題(そのサイズに依存しない)に当てはまります。
さらに、分布固定PACモデルのサンプルの複雑さは、古典的なPACモデルからの対数因子のみによって縮小できることを実証し、PAC学習における非標識データの役割(最悪の観点から)に強く反論することを実証します。
これは、実現可能なPACモデルの適切な学習性の特性評価を妨げる不可能な結果で補完します。
まず、適切な学習可能性が論理的に統計不可能である、つまりZFC公理とは無関係の問題があることを観察します。
次に、適切な学習可能性は、基礎となる仮説クラスの単調な特性ではなく、それが(正確な意味で)ローカルプロパティではないことを示します。
私たちの不可能性の結果はすべて、マルチクラス分類の基本的な設定でさえも保持され、EMX学習(Ben-David et al。、2019)の削減を経て、独立した関心のある適切な分類になります。

要約(オリジナル)

Proper learning refers to the setting in which learners must emit predictors in the underlying hypothesis class $H$, and often leads to learners with simple algorithmic forms (e.g. empirical risk minimization (ERM), structural risk minimization (SRM)). The limitation of proper learning, however, is that there exist problems which can only be learned improperly, e.g. in multiclass classification. Thus, we ask: Under what assumptions on the hypothesis class or the information provided to the learner is a problem properly learnable? We first demonstrate that when the unlabeled data distribution is given, there always exists an optimal proper learner governed by distributional regularization, a randomized generalization of regularization. We refer to this setting as the distribution-fixed PAC model, and continue to evaluate the learner on its worst-case performance over all distributions. Our result holds for all metric loss functions and any finite learning problem (with no dependence on its size). Further, we demonstrate that sample complexities in the distribution-fixed PAC model can shrink by only a logarithmic factor from the classic PAC model, strongly refuting the role of unlabeled data in PAC learning (from a worst-case perspective). We complement this with impossibility results which obstruct any characterization of proper learnability in the realizable PAC model. First, we observe that there are problems whose proper learnability is logically undecidable, i.e., independent of the ZFC axioms. We then show that proper learnability is not a monotone property of the underlying hypothesis class, and that it is not a local property (in a precise sense). Our impossibility results all hold even for the fundamental setting of multiclass classification, and go through a reduction of EMX learning (Ben-David et al., 2019) to proper classification which may be of independent interest.

arxiv情報

著者 Julian Asilis,Siddartha Devic,Shaddin Dughmi,Vatsal Sharan,Shang-Hua Teng
発行日 2025-02-14 18:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク