要約
ロジスティック損失 (つまり、クロス エントロピー損失) でトレーニングされたディープ ニューラル ネットワーク (DNN) は、さまざまなバイナリ分類タスクにおいて目覚ましい進歩を遂げました。
ただし、DNN とロジスティック損失を使用した二値分類の一般化分析は依然として不足しています。
ロジスティック損失に対するターゲット関数の非境界性は、満足のいく一般化限界を導出する際の主な障害となります。
この論文では、ターゲット関数の有界性制限に対処できる斬新でエレガントなオラクルタイプの不等式を確立し、それを使用して完全に接続された ReLU DNN 分類器のトレーニング済みの鋭い収束率を導き出すことで、このギャップを埋めることを目指しています。
物流損失を伴います。
特に、データの条件付きクラス確率 $\eta$ の古い平滑性のみを必要とする最適な収束率 (対数因子まで) を取得します。
さらに、 $\eta$ がいくつかのベクトル値関数の合成である必要がある合成仮定を検討します。その各成分関数は、その少数の値にのみ依存して最大値関数またはより古い滑らかな関数のいずれかになります。
入力変数。
この仮定の下で、データの入力次元に依存しない最適な収束率 (対数係数まで) を導き出します。
この結果は、DNN 分類器が実際の高次元分類問題で優れたパフォーマンスを発揮できる理由を説明しています。
新しいオラクルタイプの不等式に加えて、私たちの論文で示された鋭い収束率は、ReLU DNN によるゼロ付近 (制限のない) の自然対数関数の近似に伴う厳しい誤差制限のおかげでもあります。
さらに、対応するミニマックスの下限を証明することで、レートの最適性についての主張を正当化します。
これらの結果はすべて文献において新しいものであり、DNN による分類の理論的理解が深まるでしょう。
要約(オリジナル)
Deep neural networks (DNNs) trained with the logistic loss (i.e., the cross entropy loss) have made impressive advancements in various binary classification tasks. However, generalization analysis for binary classification with DNNs and logistic loss remains scarce. The unboundedness of the target function for the logistic loss is the main obstacle to deriving satisfying generalization bounds. In this paper, we aim to fill this gap by establishing a novel and elegant oracle-type inequality, which enables us to deal with the boundedness restriction of the target function, and using it to derive sharp convergence rates for fully connected ReLU DNN classifiers trained with logistic loss. In particular, we obtain optimal convergence rates (up to log factors) only requiring the H\’older smoothness of the conditional class probability $\eta$ of data. Moreover, we consider a compositional assumption that requires $\eta$ to be the composition of several vector-valued functions of which each component function is either a maximum value function or a H\’older smooth function only depending on a small number of its input variables. Under this assumption, we derive optimal convergence rates (up to log factors) which are independent of the input dimension of data. This result explains why DNN classifiers can perform well in practical high-dimensional classification problems. Besides the novel oracle-type inequality, the sharp convergence rates given in our paper also owe to a tight error bound for approximating the natural logarithm function near zero (where it is unbounded) by ReLU DNNs. In addition, we justify our claims for the optimality of rates by proving corresponding minimax lower bounds. All these results are new in the literature and will deepen our theoretical understanding of classification with DNNs.
arxiv情報
著者 | Zihan Zhang,Lei Shi,Ding-Xuan Zhou |
発行日 | 2023-07-31 15:58:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google