Regularizing cross entropy loss via minimum entropy and K-L divergence

要約

深い学習に分類するために、2つの新しい損失関数を紹介します。
2つの損失関数は、最小エントロピーとKullback-Leibler(K-L)発散項で正規化することにより、標準のクロスエントロピー損失を拡張します。
2つの新規損失関数のうち1つは混合エントロピー損失(略して混合エント)と呼ばれ、2番目のエントロピーエントロピークロスエントロピー損失(略して最小)と呼ばれます。
混合関数は、最小エントロピー項とK-L発散項の合計と同等であることが示される正規者を導入します。
ただし、ここでのK-L発散項は、ターゲット確率と仮説確率の役割を交換するという意味で、標準のクロスエントロピー損失関数のそれとは異なることに注意する必要があります。
min-ent関数は、標準のクロスエントロピー損失関数に最小エントロピーリガイザーを追加するだけです。
混合エントとMIN-ENTの両方で、最小エントロピーリガイザーは、ニューラルネットワークによって出力される仮説確率分布のエントロピーを最小限に抑えます。
Emnist-Letters Datasetの実験では、Mix-ENTとMIN-ENTの私の実装により、VGGモデルがPaperSwithCodeリーダーボード上の前の3番目の位置から登ってリーダーボードの2番目の位置に到達し、Spinal-VGGモデルを上回ることができます。
やっている。
具体的には、標準の交差点を使用してVGGは95.86%を達成し、Spinal-VGGは95.88%の分類精度を達成しますが、VGG(Spinal-VGGなし)を使用すると95.933%を達成しましたが、混合エントは95.927%の精度を達成しました。
Mix-EntとMin-Entの両方の事前に訓練されたモデルは、https://github.com/rahmanoladi/minimumエントロピープロジェクトにあります。

要約(オリジナル)

I introduce two novel loss functions for classification in deep learning. The two loss functions extend standard cross entropy loss by regularizing it with minimum entropy and Kullback-Leibler (K-L) divergence terms. The first of the two novel loss functions is termed mixed entropy loss (MIX-ENT for short), while the second one is termed minimum entropy regularized cross-entropy loss (MIN-ENT for short). The MIX-ENT function introduces a regularizer that can be shown to be equivalent to the sum of a minimum entropy term and a K-L divergence term. However, it should be noted that the K-L divergence term here is different from that in the standard cross-entropy loss function, in the sense that it swaps the roles of the target probability and the hypothesis probability. The MIN-ENT function simply adds a minimum entropy regularizer to the standard cross entropy loss function. In both MIX-ENT and MIN-ENT, the minimum entropy regularizer minimizes the entropy of the hypothesis probability distribution which is output by the neural network. Experiments on the EMNIST-Letters dataset shows that my implementation of MIX-ENT and MIN-ENT lets the VGG model climb from its previous 3rd position on the paperswithcode leaderboard to reach the 2nd position on the leaderboard, outperforming the Spinal-VGG model in so doing. Specifically, using standard cross-entropy, VGG achieves 95.86% while Spinal-VGG achieves 95.88% classification accuracies, whereas using VGG (without Spinal-VGG) our MIN-ENT achieved 95.933%, while our MIX-ENT achieved 95.927% accuracies. The pre-trained models for both MIX-ENT and MIN-ENT are at https://github.com/rahmanoladi/minimum entropy project.

arxiv情報

著者 Abdulrahman Oladipupo Ibraheem
発行日 2025-01-23 14:38:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク