Regularization and Optimal Multiclass Learning

要約

経験的リスク最小化 (ERM) の典型的な学習アルゴリズムは、一様な収束が学習の特徴ではないさまざまな設定で失敗することが知られています。
したがって、機械学習の実践には、モデルの能力を適切に制御するためのかなり豊富なアルゴリズム技術が溢れていることは驚くべきことではありません。
それにもかかわらず、これらのより一般的な設定での最適な学習を特徴づけるためにパックから抜け出したそのような技術や原則はありません。
この研究の目的は、おそらく ERM が失敗する最も単純な設定、つまり任意のラベル セットを使用したマルチクラス学習における正則化の役割を特徴付けることです。
1 包含グラフ (OIG) を使用して、実証済みのアルゴリズム原理、つまり構造リスク最小化 (SRM) によって具体化されたオッカムの剃刀、最大エントロピーの原理、およびベイズ推論と一致する最適な学習アルゴリズムを示します。
最も注目すべきは、2 次元での構造的リスクの最小化を緩和する最適学習器を導入したことです。これにより、正則化関数をデータポイントに対して「ローカル」にすることができ、教師なし学習ステージを使用して最初にこの正則化器を学習します。
私たちは、これらの緩和が必要であることを示すことで、これらの緩和を正当化します。どちらかの次元を削除しても、最適に近い学習器は得られません。
また、ホール複雑度と呼ぶ組み合わせシーケンスも OIG から抽出します。これは、問題の変換エラー率を正確に特徴付ける最初のものです。
最後に、OIG の一般化と変換学習設定を不可知論的なケースに導入し、ハミング グラフの最適な向き (ノードの外次数からノード依存のクレジット システムを差し引いたものを使用して判断) が最適な学習者を正確に特徴付けることを示します。
我々は、ホールの複雑さにとらわれないバージョンが誤り率を正確に特徴付けることを実証し、最大エントロピー プログラムを使用した最適な学習器を示します。

要約(オリジナル)

The quintessential learning algorithm of empirical risk minimization (ERM) is known to fail in various settings for which uniform convergence does not characterize learning. It is therefore unsurprising that the practice of machine learning is rife with considerably richer algorithmic techniques for successfully controlling model capacity. Nevertheless, no such technique or principle has broken away from the pack to characterize optimal learning in these more general settings. The purpose of this work is to characterize the role of regularization in perhaps the simplest setting for which ERM fails: multiclass learning with arbitrary label sets. Using one-inclusion graphs (OIGs), we exhibit optimal learning algorithms that dovetail with tried-and-true algorithmic principles: Occam’s Razor as embodied by structural risk minimization (SRM), the principle of maximum entropy, and Bayesian reasoning. Most notably, we introduce an optimal learner which relaxes structural risk minimization on two dimensions: it allows the regularization function to be ‘local’ to datapoints, and uses an unsupervised learning stage to learn this regularizer at the outset. We justify these relaxations by showing that they are necessary: removing either dimension fails to yield a near-optimal learner. We also extract from OIGs a combinatorial sequence we term the Hall complexity, which is the first to characterize a problem’s transductive error rate exactly. Lastly, we introduce a generalization of OIGs and the transductive learning setting to the agnostic case, where we show that optimal orientations of Hamming graphs — judged using nodes’ outdegrees minus a system of node-dependent credits — characterize optimal learners exactly. We demonstrate that an agnostic version of the Hall complexity again characterizes error rates exactly, and exhibit an optimal learner using maximum entropy programs.

arxiv情報

著者 Julian Asilis,Siddartha Devic,Shaddin Dughmi,Vatsal Sharan,Shang-Hua Teng
発行日 2024-06-25 17:42:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク