Cross-Entropy Loss Functions: Theoretical Analysis and Applications

要約

タイトル:クロスエントロピー損失関数:理論的分析と応用

要約:

– クロスエントロピーは、アプリケーションで広く使用されている損失関数である。
– ソフトマックスが使用される場合、ニューラルネットワークの出力に適用されるロジスティック損失と一致する。
– クロスエントロピーを代替損失として使用する場合、どのような保証が得られるのか?
– comp-sum lossesという広い範囲の損失関数の理論的分析を行い、クロスエントロピー(またはロジスティック損失)、一般化されたクロスエントロピー、平均絶対誤差などのクロスエントロピーのような関数を含む。
– これらの損失関数の最初のH-一致性の下限を提供する。
– これらは、特定の仮説セットHの推定誤差を代替損失の推定誤差で上限制約するノンアシンプトティックな保証である。
– comp-sum lossesの最小化可能性のギャップに依存する。
– データに応じて最適なギャップを求め、その種類に応じて損失関数を選択できるようになる。
– 平滑な敵対的comp-sum lossesという新しい損失関数ファミリーを紹介し、関連する平滑な項を追加してそのcomp-sum対応関数から導出する。
– これらの損失関数が敵対的な状況で有益であることを証明し、$ H $-consistency boundsを許容することを示す。
– これは、正則化された滑らかな敵対的comp-sum損失を最小化する新しい敵対的な頑健アルゴリズムにつながる。
– 応用実験を行い、平均絶対誤差などの損失関数と比較してcomp-sum損失を評価し、敵対的な頑健性アルゴリズムを報告する。

要約(オリジナル)

Cross-entropy is a widely used loss function in applications. It coincides with the logistic loss applied to the outputs of a neural network, when the softmax is used. But, what guarantees can we rely on when using cross-entropy as a surrogate loss? We present a theoretical analysis of a broad family of losses, comp-sum losses, that includes cross-entropy (or logistic loss), generalized cross-entropy, the mean absolute error and other loss cross-entropy-like functions. We give the first $H$-consistency bounds for these loss functions. These are non-asymptotic guarantees that upper bound the zero-one loss estimation error in terms of the estimation error of a surrogate loss, for the specific hypothesis set $H$ used. We further show that our bounds are tight. These bounds depend on quantities called minimizability gaps, which only depend on the loss function and the hypothesis set. To make them more explicit, we give a specific analysis of these gaps for comp-sum losses. We also introduce a new family of loss functions, smooth adversarial comp-sum losses, derived from their comp-sum counterparts by adding in a related smooth term. We show that these loss functions are beneficial in the adversarial setting by proving that they admit $H$-consistency bounds. This leads to new adversarial robustness algorithms that consist of minimizing a regularized smooth adversarial comp-sum loss. While our main purpose is a theoretical analysis, we also present an extensive empirical analysis comparing comp-sum losses. We further report the results of a series of experiments demonstrating that our adversarial robustness algorithms outperform the current state-of-the-art, while also achieving a superior non-adversarial accuracy.

arxiv情報

著者 Anqi Mao,Mehryar Mohri,Yutao Zhong
発行日 2023-04-14 17:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク