On Excess Risk Convergence Rates of Neural Network Classifiers

要約

パターン認識および分類問題におけるニューラル ネットワークの最近の成功は、ニューラル ネットワークが SVM やブースティング分類器などの他のより古典的な分類器とは異なる品質を備えていることを示唆しています。
この論文では、バイナリ分類設定におけるニューラル ネットワークに基づくプラグイン分類器のパフォーマンスを、過剰リスクによって測定して研究します。
文献で課されている典型的な設定と比較して、2 つの点で実際の実践に似た、より一般的なシナリオを検討します。1 つ目は、近似される関数クラスにバロン関数が適切なサブセットとして含まれていること、2 つ目は、構築されるニューラル ネットワーク分類器が次のとおりであることです。
勾配降下ベースの数値最適化を簡単に適用できるように、$0$-$1$ 損失の代わりに代理損失の最小化を行います。
私たちが考慮する関数のクラスは非常に大きく、最適レートは $n^{-\frac{1}{3}}$ より速くすることはできませんが、それは無次元レートが可能であり、ニューラルの近似能力が可能な領域です。
ネットワークを活用することができます。
特に、ニューラル ネットワークの推定特性と近似特性を分析して、超過リスクに対する次元フリーの均一な収束率を取得します。
最後に、得られたレートが実際には対数係数までミニマックス最適であることを示し、ミニマックスの下限はこの領域におけるマージン仮定の影響を示します。

要約(オリジナル)

The recent success of neural networks in pattern recognition and classification problems suggests that neural networks possess qualities distinct from other more classical classifiers such as SVMs or boosting classifiers. This paper studies the performance of plug-in classifiers based on neural networks in a binary classification setting as measured by their excess risks. Compared to the typical settings imposed in the literature, we consider a more general scenario that resembles actual practice in two respects: first, the function class to be approximated includes the Barron functions as a proper subset, and second, the neural network classifier constructed is the minimizer of a surrogate loss instead of the $0$-$1$ loss so that gradient descent-based numerical optimizations can be easily applied. While the class of functions we consider is quite large that optimal rates cannot be faster than $n^{-\frac{1}{3}}$, it is a regime in which dimension-free rates are possible and approximation power of neural networks can be taken advantage of. In particular, we analyze the estimation and approximation properties of neural networks to obtain a dimension-free, uniform rate of convergence for the excess risk. Finally, we show that the rate obtained is in fact minimax optimal up to a logarithmic factor, and the minimax lower bound shows the effect of the margin assumption in this regime.

arxiv情報

著者 Hyunouk Ko,Namjoon Suh,Xiaoming Huo
発行日 2023-09-26 17:14:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク