A margin-based replacement for cross-entropy loss

要約

クロスエントロピー (CE) 損失は、ディープ ニューラル ネットワークをトレーニングして分類を実行するための事実上の標準です。
ただし、CE でトレーニングされたディープ ニューラル ネットワークは、堅牢性と一般化の問題に悩まされています。
これらの問題を軽減するために、他のマージンベースの損失のトレーニング問題を克服する、マルチクラスマージン損失の変形である高エラーマージン (HEM) 損失を提案します。
私たちは、さまざまなアーキテクチャとデータセットで HEM を広範囲に評価します。
HEM 損失は、未知のクラスの拒否、敵対的な堅牢性、不均衡なデータによる学習、継続的学習、セマンティック セグメンテーション (ピクセル レベルの分類タスク) など、幅広いタスクにわたってクロス エントロピー 損失よりも効果的であることがわかりました。
すべてのトレーニング ハイパー パラメータが CE 損失に対して選択されているにもかかわらず、HEM はクリーンな精度の点でのみ CE より劣っており、この差は重要ではありません。
また、HEM を、特定のタスクのパフォーマンスを向上させるために以前に提案された特殊な損失と比較します。
LogitNorm は、未知のクラスの拒否に関して最先端のパフォーマンスを実現する損失であり、このタスクでは HEM と同様のパフォーマンスを生成しますが、継続的な学習とセマンティック セグメンテーションでははるかに劣ります。
不均衡なデータ用に設計されたロジット調整損失は、そのタスクでは HEM よりも優れた結果をもたらしますが、未知のクラスの拒否とセマンティック セグメンテーションではパフォーマンスが低下します。
セマンティック セグメンテーションの一般的な損失である DICE は、セマンティック セグメンテーションを含むすべてのタスクで HEM 損失よりも劣ります。
したがって、HEM は特殊な損失よりも優れたパフォーマンスを発揮することが多く、それらとは対照的に、CE 損失の汎用代替品となります。

要約(オリジナル)

Cross-entropy (CE) loss is the de-facto standard for training deep neural networks to perform classification. However, CE-trained deep neural networks struggle with robustness and generalisation issues. To alleviate these issues, we propose high error margin (HEM) loss, a variant of multi-class margin loss that overcomes the training issues of other margin-based losses. We evaluate HEM extensively on a range of architectures and datasets. We find that HEM loss is more effective than cross-entropy loss across a wide range of tasks: unknown class rejection, adversarial robustness, learning with imbalanced data, continual learning, and semantic segmentation (a pixel-level classification task). Despite all training hyper-parameters being chosen for CE loss, HEM is inferior to CE only in terms of clean accuracy and this difference is insignificant. We also compare HEM to specialised losses that have previously been proposed to improve performance on specific tasks. LogitNorm, a loss achieving state-of-the-art performance on unknown class rejection, produces similar performance to HEM for this task, but is much poorer for continual learning and semantic segmentation. Logit-adjusted loss, designed for imbalanced data, has superior results to HEM for that task, but performs more poorly on unknown class rejection and semantic segmentation. DICE, a popular loss for semantic segmentation, is inferior to HEM loss on all tasks, including semantic segmentation. Thus, HEM often out-performs specialised losses, and in contrast to them, is a general-purpose replacement for CE loss.

arxiv情報

著者 Michael W. Spratling,Heiko H. Schütt
発行日 2025-01-21 14:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク