Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape Bias by Distorted Shape

要約

深層学習モデルは強いテクスチャ バイアスを示すことが知られていますが、人間はオブジェクト認識において全体的な形状に大きく依存する傾向があります。
モデルの形状バイアスを評価するための現在のベンチマークは、スタイル転送の攻撃に対する耐性がモデルの形状感度の発達に関連しているという仮定に基づいて、スタイル転送された画像のセットです。
この研究では、スタイル転送画像で訓練されたネットワークは確かにスタイルを無視することを学習しますが、その形状バイアスは主に局所的な形状から生じることを示します。
当社では、全体的な形状感度の代替測定として、Distorted Shape Testbench (DiST) を提供しています。
私たちのテストには、ImageNet-1K からの 2400 枚の元の画像が含まれており、それぞれの画像には、テクスチャ合成プログラムによってテクスチャを維持しながら、元の画像の全体的な形状が歪んだ 2 つの画像が付いています。
我々は、(1) 以前の形状バイアス評価ではうまく機能したモデルが、提案された DiST ではうまく機能しないことを発見しました。
(2) 以前の形状バイアス テストでは ViT が上位にランクされていたにもかかわらず、広く採用されている ViT モデルは、このベンチマークでは畳み込みニューラル ネットワーク (CNN) よりも大きな利点を示していません。
(3) DiST 画像を使用したトレーニングは、標準的な画像分類タスクにおけるモデルの精度を維持しながら、人間と既存の SOTA モデルのパフォーマンス間の大きなギャップを埋めます。
DiST 画像とスタイル転送画像を使用したトレーニングは補完的であり、ネットワークを一緒にトレーニングするために組み合わせて、ネットワークのグローバルとローカルの両方の形状感度を向上させることができます。
私たちのコードは https://github.com/leelabcnbc/DiST でホストされます。

要約(オリジナル)

Deep learning models are known to exhibit a strong texture bias, while human tends to rely heavily on global shape for object recognition. The current benchmark for evaluating a model’s shape bias is a set of style-transferred images with the assumption that resistance to the attack of style transfer is related to the development of shape sensitivity in the model. In this work, we show that networks trained with style-transfer images indeed learn to ignore style, but its shape bias arises primarily from local shapes. We provide a Distorted Shape Testbench (DiST) as an alternative measurement of global shape sensitivity. Our test includes 2400 original images from ImageNet-1K, each of which is accompanied by two images with the global shapes of the original image distorted while preserving its texture via the texture synthesis program. We found that (1) models that performed well on the previous shape bias evaluation do not fare well in the proposed DiST; (2) the widely adopted ViT models do not show significant advantages over Convolutional Neural Networks (CNNs) on this benchmark despite that ViTs rank higher on the previous shape bias tests. (3) training with DiST images bridges the significant gap between human and existing SOTA models’ performance while preserving the models’ accuracy on standard image classification tasks; training with DiST images and style-transferred images are complementary, and can be combined to train network together to enhance both the global and local shape sensitivity of the network. Our code will be host at: https://github.com/leelabcnbc/DiST

arxiv情報

著者 Ziqi Wen,Tianqin Li,Tai Sing Lee
発行日 2023-10-11 15:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク