Diagnosing and Rectifying Vision Models using Language

要約

近年のマルチモーダル対照学習モデルは、大規模な画像キャプションデータセットの豊富な情報を活用することで、強力な視覚分類器を構築するのに適した埋め込み空間を学習できることを実証している。本研究では、このマルチモーダルな埋め込み空間の明確な利点である、自然言語による視覚分類器の診断能力を強調する。従来のモデル動作の診断には、データ取得とアノテーションに多大な労力が必要でした。本提案手法は、視覚データを一切必要とせず、高エラーデータスライスを発見し、影響力のある属性を特定し、さらに望ましくないモデル動作を修正することが可能である。理論的な説明と実証的な検証を組み合わせることで、あるモダリティの埋め込みに対して学習した分類器を、別のモダリティの埋め込みに等価に適用できる条件を提示する。本手法は、既知のエラースライスを持つ様々な画像データセットにおいて、効果的にエラースライスと影響力のある属性を特定できることを示し、さらに言語を用いて分類器の故障モードを修正することができることを実証する。

要約(オリジナル)

Recent multi-modal contrastive learning models have demonstrated the ability to learn an embedding space suitable for building strong vision classifiers, by leveraging the rich information in large-scale image-caption datasets. Our work highlights a distinct advantage of this multi-modal embedding space: the ability to diagnose vision classifiers through natural language. The traditional process of diagnosing model behaviors in deployment settings involves labor-intensive data acquisition and annotation. Our proposed method can discover high-error data slices, identify influential attributes and further rectify undesirable model behaviors, without requiring any visual data. Through a combination of theoretical explanation and empirical verification, we present conditions under which classifiers trained on embeddings from one modality can be equivalently applied to embeddings from another modality. On a range of image datasets with known error slices, we demonstrate that our method can effectively identify the error slices and influential attributes, and can further use language to rectify failure modes of the classifier.

arxiv情報

著者 Yuhui Zhang,Jeff Z. HaoChen,Shih-Cheng Huang,Kuan-Chieh Wang,James Zou,Serena Yeung
発行日 2023-02-08 18:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク