要約
画像の背景の特徴は、背景のバイアス (擬似相関) を構成し、深層分類器の決定に影響を与え、ショートカット学習 (クレバー ハンス効果) を引き起こし、実世界のデータに対する汎化スキルを低下させる可能性があります。
分類器の動作を改善するためにレイヤーワイズ関連性伝播 (LRP) ヒートマップを最適化するという概念は、ISNet という名前のニューラル ネットワーク アーキテクチャによって最近導入されました。
LRP マップの背景の関連性を最小限に抑え、深層分類器の決定に対する画像の背景の特徴の影響を軽減し、ショートカット学習を妨げ、汎化を向上させます。
元の ISNet は、トレーニング イメージごとに、分類タスクで考えられるクラスごとに 1 つのヒートマップを生成します。そのため、トレーニング時間はクラスの数に比例して増加します。
ここでは、トレーニング時間をこの数値から独立させ、最適化プロセスをより高速にレンダリングできる再定式化されたアーキテクチャを紹介します。
私たちは、合成バックグラウンド バイアスを備えた MNIST データセットを利用した強化されたモデルと、バックグラウンド バイアスにより近道学習が行われやすいアプリケーションである胸部 X 線写真での COVID-19 検出に挑戦しました。
トレーニングされたモデルは、高い精度を維持しながら、背景の注意力とショートカット学習の妨げを最小限に抑えました。
外部 (配布外) テスト データセットを考慮すると、専用の画像セマンティック セグメンターとそれに続く分類器を含む、複数の最先端のディープ ニューラル ネットワーク アーキテクチャよりも正確であることが一貫して証明されました。
ここで紹介するアーキテクチャは、元の ISNet に比べてトレーニング速度が大幅に向上する可能性があるため、元のモデルでは適切に処理できなかったさまざまなアプリケーションに LRP 最適化が導入されます。
要約(オリジナル)
Image background features can constitute background bias (spurious correlations) and impact deep classifiers decisions, causing shortcut learning (Clever Hans effect) and reducing the generalization skill on real-world data. The concept of optimizing Layer-wise Relevance Propagation (LRP) heatmaps, to improve classifier behavior, was recently introduced by a neural network architecture named ISNet. It minimizes background relevance in LRP maps, to mitigate the influence of image background features on deep classifiers decisions, hindering shortcut learning and improving generalization. For each training image, the original ISNet produces one heatmap per possible class in the classification task, hence, its training time scales linearly with the number of classes. Here, we introduce reformulated architectures that allow the training time to become independent from this number, rendering the optimization process much faster. We challenged the enhanced models utilizing the MNIST dataset with synthetic background bias, and COVID-19 detection in chest X-rays, an application that is prone to shortcut learning due to background bias. The trained models minimized background attention and hindered shortcut learning, while retaining high accuracy. Considering external (out-of-distribution) test datasets, they consistently proved more accurate than multiple state-of-the-art deep neural network architectures, including a dedicated image semantic segmenter followed by a classifier. The architectures presented here represent a potentially massive improvement in training speed over the original ISNet, thus introducing LRP optimization into a gamut of applications that could not be feasibly handled by the original model.
arxiv情報
著者 | Pedro R. A. S. Bassi,Sergio Decherchi,Andrea Cavalli |
発行日 | 2024-01-16 14:49:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google