要約
タイトル:Uniform Doubling Conditionを用いたDNNのトレーニングにおける精度の安定性
要約:
– DNNのトレーニングにおける精度(正しく分類されたオブジェクトの割合)の安定性を研究する。
– DNNのトレーニングは交差エントロピー損失関数の最小化によって行われる。
– トレーニングによって損失は減少するが、精度は必ずしも増加しないことがある。
– 精度の安定性を達成することで、初期時点での高い精度がトレーニングの間継続することを保証する。
– 最近の研究では、トレーニングデータに対する倍増条件が導入され、絶対値活性化関数を使用しているDNNのトレーニングに対する精度の安定性が保証されている。
– 本論文の目的は、倍増条件を一様にすることであり、トレーニングデータだけで精度の安定性が保証される十分条件を導くことである。
– また、一様性の確立は倍増条件の数値実装に必要である。
– 本論文の2番目の目的は、絶対値活性化関数から、Leaky ReLUなど有限個の臨界点を持つ折線的な活性化関数へと、多様なクラスの活性化関数に対する安定性の結果を拡張することである。
要約(オリジナル)
We study the stability of accuracy during the training of deep neural networks (DNNs). In this context, the training of a DNN is performed via the minimization of a cross-entropy loss function, and the performance metric is accuracy (the proportion of objects that are classified correctly). While training results in a decrease of loss, the accuracy does not necessarily increase during the process and may sometimes even decrease. The goal of achieving stability of accuracy is to ensure that if accuracy is high at some initial time, it remains high throughout training. A recent result by Berlyand, Jabin, and Safsten introduces a doubling condition on the training data, which ensures the stability of accuracy during training for DNNs using the absolute value activation function. For training data in $\mathbb{R}^n$, this doubling condition is formulated using slabs in $\mathbb{R}^n$ and depends on the choice of the slabs. The goal of this paper is twofold. First, to make the doubling condition uniform, that is, independent of the choice of slabs. This leads to sufficient conditions for stability in terms of training data only. In other words, for a training set $T$ that satisfies the uniform doubling condition, there exists a family of DNNs such that a DNN from this family with high accuracy on the training set at some training time $t_0$ will have high accuracy for all time $t>t_0$. Moreover, establishing uniformity is necessary for the numerical implementation of the doubling condition. The second goal is to extend the original stability results from the absolute value activation function to a broader class of piecewise linear activation functions with finitely many critical points, such as the popular Leaky ReLU.
arxiv情報
著者 | Yitzchak Shmalo |
発行日 | 2023-04-27 21:14:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI