Reducing Texture Bias of Deep Neural Networks via Edge Enhancing Diffusion

要約

画像処理用の畳み込みニューラル ネットワーク (CNN) は、一般にテクスチャ バイアスと呼ばれる、局所的なテクスチャ パターンに焦点を当てる傾向があります。
これまでの文献のほとんどは画像分類のタスクに焦点を当てていますが、私たちはこれを超えて、セマンティック セグメンテーションにおける CNN のテクスチャ バイアスを研究しています。
この研究では、テクスチャのバイアスを減らすために、テクスチャの少ない前処理された画像で CNN をトレーニングすることを提案します。
ここでの課題は、形状情報を維持しながら画像のテクスチャを抑制することです。
この目的を達成するために、最初に画像圧縮のために導入された異方性画像拡散法であるエッジ強調拡散 (EED) を利用して、既存のデータセットのテクスチャを削減した複製を作成します。
CNN と、Cityscapes データセットおよび CARLA 運転シミュレーターからの元のデータと EED 処理されたデータでトレーニングされたビジョン トランスフォーマー モデルの両方を使用して、広範な数値研究が実行されます。
CNN の強いテクスチャ依存性とトランスフォーマーの適度なテクスチャ依存性が観察されました。
EED 処理された画像で CNN をトレーニングすると、モデルはテクスチャに関して完全に無知になり、程度を問わずテクスチャの再導入に対する回復力を実証できます。
さらに、セマンティック セグメンテーションにおける接続コンポーネントのレベルでパフォーマンスの低下を詳細に分析し、ドメインの一般化と敵対的な堅牢性に対する EED 前処理の影響を研究します。

要約(オリジナル)

Convolutional neural networks (CNNs) for image processing tend to focus on localized texture patterns, commonly referred to as texture bias. While most of the previous works in the literature focus on the task of image classification, we go beyond this and study the texture bias of CNNs in semantic segmentation. In this work, we propose to train CNNs on pre-processed images with less texture to reduce the texture bias. Therein, the challenge is to suppress image texture while preserving shape information. To this end, we utilize edge enhancing diffusion (EED), an anisotropic image diffusion method initially introduced for image compression, to create texture reduced duplicates of existing datasets. Extensive numerical studies are performed with both CNNs and vision transformer models trained on original data and EED-processed data from the Cityscapes dataset and the CARLA driving simulator. We observe strong texture-dependence of CNNs and moderate texture-dependence of transformers. Training CNNs on EED-processed images enables the models to become completely ignorant with respect to texture, demonstrating resilience with respect to texture re-introduction to any degree. Additionally we analyze the performance reduction in depth on a level of connected components in the semantic segmentation and study the influence of EED pre-processing on domain generalization as well as adversarial robustness.

arxiv情報

著者 Edgar Heinert,Matthias Rottmann,Kira Maag,Karsten Kahl
発行日 2024-07-22 16:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク