要約
ディープラーニングビジョンシステムは、信頼性が重要視されるアプリケーションに広く導入されています。しかし、今日の最高のモデルでさえ、物体の姿勢、照明、背景が変化すると、物体の認識に失敗することがあります。既存のベンチマークはモデルにとって挑戦的な例を示していますが、なぜそのようなミスが発生するのかについては説明されていません。そこで我々は、ImageNet-1kの検証画像と1万2千枚の学習画像に、姿勢や背景、照明などの要素を16個の人間がアノテーションしたImageNet-Xを導入しました。ImageNet-Xを用いて、2,200の認識モデルを調査し、モデルの(1)アーキテクチャ、例えば変換器と畳み込み、(2)学習パラダイム、例えば教師ありと自己教師あり、(3)学習方法、例えばデータ補強の機能として、どのような誤りがあるかを調査している。これらの選択にかかわらず、ImageNet-Xのカテゴリにおいて、モデルは一貫した故障モードを持っていることがわかりました。また、データ補強は特定の要因に対する頑健性を向上させることができるが、他の要因への波及効果を引き起こすこともわかった。例えば、ランダムな切り出しは、より小さなオブジェクトのロバスト性を低下させる。これらの知見は、最新のビジョンモデルのロバスト性を向上させるために、今後の研究では、さらなるデータの収集とデータ増強のスキームを理解することに焦点を当てるべきであることを示唆しています。これらの知見とともに、画像認識システムが犯す過ちに関するさらなる研究を促進するため、ImageNet-Xに基づくツールキットを公開する。
要約(オリジナル)
Deep learning vision systems are widely deployed across applications where reliability is critical. However, even today’s best models can fail to recognize an object when its pose, lighting, or background varies. While existing benchmarks surface examples challenging for models, they do not explain why such mistakes arise. To address this need, we introduce ImageNet-X, a set of sixteen human annotations of factors such as pose, background, or lighting the entire ImageNet-1k validation set as well as a random subset of 12k training images. Equipped with ImageNet-X, we investigate 2,200 current recognition models and study the types of mistakes as a function of model’s (1) architecture, e.g. transformer vs. convolutional, (2) learning paradigm, e.g. supervised vs. self-supervised, and (3) training procedures, e.g., data augmentation. Regardless of these choices, we find models have consistent failure modes across ImageNet-X categories. We also find that while data augmentation can improve robustness to certain factors, they induce spill-over effects to other factors. For example, strong random cropping hurts robustness on smaller objects. Together, these insights suggest to advance the robustness of modern vision models, future research should focus on collecting additional data and understanding data augmentation schemes. Along with these insights, we release a toolkit based on ImageNet-X to spur further study into the mistakes image recognition systems make.
arxiv情報
著者 | Badr Youbi Idrissi,Diane Bouchacourt,Randall Balestriero,Ivan Evtimov,Caner Hazirbas,Nicolas Ballas,Pascal Vincent,Michal Drozdzal,David Lopez-Paz,Mark Ibrahim |
発行日 | 2022-11-03 14:56:32+00:00 |
arxivサイト | arxiv_id(pdf) |