要約
コンセプト ボトルネック モデル (CBM) は、トレーニング サンプル (X 線画像など) に高レベルの概念 (異常の種類など) が注釈付けされていると想定し、最初に概念を予測し、続いてこれらの概念に基づいてラベルを予測することで分類を実行します。
概念。
CBM を使用する際の主な困難は、ラベルを予測する概念を選択し、これらの概念を使用してトレーニング サンプルにラベルを付けなければならないことにあります。
私たちのアプローチでは、より穏やかな仮定を採用し、代わりにトレーニング中の画像に付随するテキストの説明 (放射線医学レポートなど) を使用して、概念の導入をガイドします。
私たちのクロスモーダル アプローチは、概念を離散的な潜在変数として扱い、(1) ラベルを予測し、(2) 画像とテキストの両方から確実に予測できるという概念を促進します。
合成データセット (例: 生成された説明を含む合成画像) から現実的な医療画像データセットに至るまでのデータセットに対して行われた実験を通じて、クロスモーダル学習が解釈可能な概念の誘導を促進すると同時に、もつれの解消も促進することを実証しました。
私たちの結果は、このガイダンスがショートカット機能への依存を抑制することで堅牢性の向上につながることも示唆しています。
要約(オリジナル)
Concept Bottleneck Models (CBMs) assume that training examples (e.g., x-ray images) are annotated with high-level concepts (e.g., types of abnormalities), and perform classification by first predicting the concepts, followed by predicting the label relying on these concepts. The main difficulty in using CBMs comes from having to choose concepts that are predictive of the label and then having to label training examples with these concepts. In our approach, we adopt a more moderate assumption and instead use text descriptions (e.g., radiology reports), accompanying the images in training, to guide the induction of concepts. Our cross-modal approach treats concepts as discrete latent variables and promotes concepts that (1) are predictive of the label, and (2) can be predicted reliably from both the image and text. Through experiments conducted on datasets ranging from synthetic datasets (e.g., synthetic images with generated descriptions) to realistic medical imaging datasets, we demonstrate that cross-modal learning encourages the induction of interpretable concepts while also facilitating disentanglement. Our results also suggest that this guidance leads to increased robustness by suppressing the reliance on shortcut features.
arxiv情報
著者 | Danis Alukaev,Semen Kiselev,Ilya Pershin,Bulat Ibragimov,Vladimir Ivanov,Alexey Kornaev,Ivan Titov |
発行日 | 2023-12-17 09:40:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google