Optimality and complexity of classification by random projection

要約

分類子の汎化誤差は、分類子が選択される一連の関数の複雑さに関係します。
ランダムな 1 次元特徴のしきい値処理からなる低複雑度の分類器のファミリーを研究します。
この特徴は、データを k までの次数の単項式でパラメータ化された高次元空間に埋め込んだ後、ランダムな線上に投影することによって取得されます。
より具体的には、拡張データは n 回投影され、トレーニング データのパフォーマンスに基づいて、n 回の中で最良の分類器が選択されます。
このタイプの分類器は、サポートを測定可能なサブセットに分割するコンパクト セット上の任意のブール関数だけでなく、コンパクト セット上の任意の連続関数も任意の精度に近似できる可能性が高いため、非常に柔軟であることを示します。
特に、クラスの条件付き密度について十分な知識があれば、これらの低複雑度の分類器の誤差は、k と n が無限大になるにつれて最適な (ベイズ) 誤差に収束します。
一方、トレーニング データセットのみが与えられた場合、分類器は k と n が無限大になるまですべてのトレーニング ポイントを完全に分類することを示します。
また、ランダム分類子の一般化誤差も制限しました。
一般に、私たちの境界は、 VC 次元が O (ln n) より大きい分類器の境界よりも優れています。
特に、我々の限界は、射影の数 n が極端に大きくない限り、ランダム射影アプローチの汎化誤差と拡張空間における線形分類器の汎化誤差の間に大きな有利なギャップがあることを意味します。
漸近的に、サンプル数が無限大に近づくにつれて、そのような n についてギャップが持続します。
したがって、最適化ではなくランダムにパラメーターを選択することによって、一般化プロパティに大きな利益が得られる可能性があります。

要約(オリジナル)

The generalization error of a classifier is related to the complexity of the set of functions among which the classifier is chosen. We study a family of low-complexity classifiers consisting of thresholding a random one-dimensional feature. The feature is obtained by projecting the data on a random line after embedding it into a higher-dimensional space parametrized by monomials of order up to k. More specifically, the extended data is projected n-times and the best classifier among those n, based on its performance on training data, is chosen. We show that this type of classifier is extremely flexible, as it is likely to approximate, to an arbitrary precision, any continuous function on a compact set as well as any boolean function on a compact set that splits the support into measurable subsets. In particular, given full knowledge of the class conditional densities, the error of these low-complexity classifiers would converge to the optimal (Bayes) error as k and n go to infinity. On the other hand, if only a training dataset is given, we show that the classifiers will perfectly classify all the training points as k and n go to infinity. We also bound the generalization error of our random classifiers. In general, our bounds are better than those for any classifier with VC dimension greater than O (ln n) . In particular, our bounds imply that, unless the number of projections n is extremely large, there is a significant advantageous gap between the generalization error of the random projection approach and that of a linear classifier in the extended space. Asymptotically, as the number of samples approaches infinity, the gap persists for any such n. Thus, there is a potentially large gain in generalization properties by selecting parameters at random, rather than optimization.

arxiv情報

著者 Mireille Boutin,Evzenie Coupkova
発行日 2023-05-18 15:51:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 41A10, 68Q32, 68Q87, cs.LG, math.PR, stat.ML パーマリンク