Benchmarking Robustness to Text-Guided Corruptions

要約

タイトル:テキストガイドの破壊に対する強靭性ベンチマーク
要約:
– 本研究は、画像分類器の強靭性をテキストガイドの破壊に対して調査している。
– そのために、拡散モデルを用いて画像を異なる領域に編集する方法を利用している。
– 他の研究と異なり、合成データや手選択データを使用するのではなく、編集された画像の意味的内容を保持しながら学習できる生成モデルである拡散モデルを使用しているため、編集内容はより現実的で比較はより情報豊富になる。また、手動ラベリングの必要がなく、より少ない労力で大規模なベンチマークを作成できる。
– オリジナルのImageNet階層に基づいたプロンプト階層を定義して、異なる領域に編集を適用している。
– 新しいベンチマークを導入するだけでなく、異なるビジョンモデルの強靭性を調査しようとしている。
– この研究の結果、画像分類器のパフォーマンスが、さまざまな言語ベースの編集とエリアで著しく低下することが示された。また、畳み込みモデルはトランスフォーマーアーキテクチャよりも強靭であることが観察された。さらに、一般的なデータ拡張テクニックを使用することで、元のデータと編集された画像の両方でパフォーマンスを向上させることができることも確認された。
– この研究の知見は、画像分類器の設計の改善や、より強靭な機械学習システムの開発に貢献することができる。本ベンチマークの生成コードは出版後にオンラインで公開される。

要約(オリジナル)

This study investigates the robustness of image classifiers to text-guided corruptions. We utilize diffusion models to edit images to different domains. Unlike other works that use synthetic or hand-picked data for benchmarking, we use diffusion models as they are generative models capable of learning to edit images while preserving their semantic content. Thus, the corruptions will be more realistic and the comparison will be more informative. Also, there is no need for manual labeling and we can create large-scale benchmarks with less effort. We define a prompt hierarchy based on the original ImageNet hierarchy to apply edits in different domains. As well as introducing a new benchmark we try to investigate the robustness of different vision models. The results of this study demonstrate that the performance of image classifiers decreases significantly in different language-based corruptions and edit domains. We also observe that convolutional models are more robust than transformer architectures. Additionally, we see that common data augmentation techniques can improve the performance on both the original data and the edited images. The findings of this research can help improve the design of image classifiers and contribute to the development of more robust machine learning systems. The code for generating the benchmark will be made available online upon publication.

arxiv情報

著者 Mohammadreza Mofayezi,Yasamin Medghalchi
発行日 2023-04-06 09:40:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク