Discovering Bugs in Vision Models using Off-the-shelf Image Generation and Captioning


タイトル:「Off-the-shelf Image GenerationとCaptioningを利用したビジョンモデルのバグの発見」


– 本研究は、現実世界の状況下でビジョンモデルの失敗を自動的に発見することは未解決課題であることを示している。
– オフシェルフの大規模な画像からテキストへの変換、およびテキストから画像への変換モデルを使用し、膨大なデータに基づいてトレーニングされたことを活用することで、この課題を解決する方法を示している。
– 条件付けテキストから画像を生成するモデルを使用して、真のラベルが与えられた場合に大量の合成的かつ現実的な入力を生成する。そして、分類に失敗した入力はクラスタリングされ、キャプションモデルを用いて各クラスターを説明する。
– それぞれのクラスターの説明は、さらに入力を生成し、特定のクラスターが予想よりも失敗を引き起こすかどうかを評価するために使用される。
– このパイプラインを使用して、ImageNetでトレーニングされた分類器を尋問して、特定の失敗ケースを見つけ、不適切な相関関係を発見することができることを示した。
– また、特定の分類器アーキテクチャをターゲットとした敵対的なデータセットを生成するアプローチを展開することで、本手法を拡張することが可能であることも示している。
– 本研究は、大規模生成モデルがビジョンモデルのバグを自動的に発見するために有用であることを証明する概念の証明となっており、アプローチに関するいくつかの制限と落とし穴についても説明している。


Automatically discovering failures in vision models under real-world settings remains an open challenge. This work demonstrates how off-the-shelf, large-scale, image-to-text and text-to-image models, trained on vast amounts of data, can be leveraged to automatically find such failures. In essence, a conditional text-to-image generative model is used to generate large amounts of synthetic, yet realistic, inputs given a ground-truth label. Misclassified inputs are clustered and a captioning model is used to describe each cluster. Each cluster’s description is used in turn to generate more inputs and assess whether specific clusters induce more failures than expected. We use this pipeline to demonstrate that we can effectively interrogate classifiers trained on ImageNet to find specific failure cases and discover spurious correlations. We also show that we can scale the approach to generate adversarial datasets targeting specific classifier architectures. This work serves as a proof-of-concept demonstrating the utility of large-scale generative models to automatically discover bugs in vision models in an open-ended manner. We also describe a number of limitations and pitfalls related to this approach.


著者 Olivia Wiles,Isabela Albuquerque,Sven Gowal
発行日 2023-05-11 17:13:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク