Does resistance to style-transfer equal Global Shape Bias? Measuring network sensitivity to global shape configuration

要約

深層学習モデルは強いテクスチャ バイアスを示すことが知られていますが、人間はオブジェクト認識において全体的な形状構造に大きく依存する傾向があります。
モデルの全体的な形状バイアスを評価するための現在のベンチマークは、スタイル転送の攻撃に対する耐性がモデル内の全体的な構造の感度の発達に関連しているという仮定に基づいて、スタイル転送された画像のセットです。
この研究では、スタイル転送画像で訓練されたネットワークは確かにスタイルを無視することを学習しますが、その形状バイアスは主に局所的な詳細から生じることを示します。
私たちは、グローバル構造感度の直接測定として \textbf{破壊構造テストベンチ (DiST)} を提供します。
私たちのテストには、ImageNet-1K からの 2400 枚のオリジナル画像が含まれており、それぞれの画像には、テクスチャ合成プログラムによってテクスチャを維持しながら、オリジナル画像の全体的な形状が破壊された 2 つの画像が付いています。
以前のキュー競合データセットではうまく機能した \textcolor{black}{(1) モデルが、提案された DiST ではうまく機能しないことがわかりました。
(2) 教師ありトレーニング済みビジョン トランスフォーマー (ViT) は、位置埋め込みによってグローバル空間情報を失い、DiST 上の畳み込みニューラル ネットワーク (CNN) に対して大きな利点が得られません。
自己教師あり学習手法、特にマスク オートエンコーダーは、ViT の全体構造感度を大幅に向上させます。
(3) 全体的な構造の感度の向上は、スタイル転送に対する耐性と直交しており、全体的な形状構造と局所的なテクスチャの詳細の間の関係は、どちらか一方の関係ではないことを示しています。
DiST 画像とスタイル転送画像を使用したトレーニングは補完的であり、ネットワークを一緒にトレーニングするために組み合わせて、グローバルな形状の感度とローカル特徴の堅牢性を強化できます。} 私たちのコードは github でホストされます: https://github.com/leelabcnbc
/DiST

要約(オリジナル)

Deep learning models are known to exhibit a strong texture bias, while human tends to rely heavily on global shape structure for object recognition. The current benchmark for evaluating a model’s global shape bias is a set of style-transferred images with the assumption that resistance to the attack of style transfer is related to the development of global structure sensitivity in the model. In this work, we show that networks trained with style-transfer images indeed learn to ignore style, but its shape bias arises primarily from local detail. We provide a \textbf{Disrupted Structure Testbench (DiST)} as a direct measurement of global structure sensitivity. Our test includes 2400 original images from ImageNet-1K, each of which is accompanied by two images with the global shapes of the original image disrupted while preserving its texture via the texture synthesis program. We found that \textcolor{black}{(1) models that performed well on the previous cue-conflict dataset do not fare well in the proposed DiST; (2) the supervised trained Vision Transformer (ViT) lose its global spatial information from positional embedding, leading to no significant advantages over Convolutional Neural Networks (CNNs) on DiST. While self-supervised learning methods, especially mask autoencoder significantly improves the global structure sensitivity of ViT. (3) Improving the global structure sensitivity is orthogonal to resistance to style-transfer, indicating that the relationship between global shape structure and local texture detail is not an either/or relationship. Training with DiST images and style-transferred images are complementary, and can be combined to train network together to enhance the global shape sensitivity and robustness of local features.} Our code will be hosted in github: https://github.com/leelabcnbc/DiST

arxiv情報

著者 Ziqi Wen,Tianqin Li,Zhi Jing,Tai Sing Lee
発行日 2024-02-29 15:53:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク