要約
教師なし異常検出では、元の画像と通常の画像のみでトレーニングされたモデルによって生成された擬似健全な再構成を並べて配置することで、潜在的な病理学的領域を特定できます。
しかし、結果として得られる異常マップの臨床的解釈には、詳細でわかりやすい説明が不足しているため、課題が生じています。
言語モデルの最近の進歩により、人間のような理解を模倣し、詳細な説明を提供できることが示されました。
これは興味深い疑問を引き起こします: \textit{異常マップをより説明可能にするために言語モデルをどのように使用できますか?} 私たちの知る限り、私たちは教師なし異常検出に言語モデルを初めて利用しました。
さまざまな質問と回答を含むデータセット。
さらに、視覚的な知識の抽出を強化するための多様な特徴融合戦略を組み込んだ、異常検出用に調整された新しい複数画像の視覚的な質問応答フレームワークを紹介します。
私たちの実験では、新しい Knowledge Q-Former モジュールによって強化されたフレームワークが、異常検出データセットに関する質問に適切に答えていることが明らかになりました。
さらに、異常マップを入力として統合することは、目に見えない病状の検出を向上させるのに明らかに役立ちます。
要約(オリジナル)
Unsupervised anomaly detection enables the identification of potential pathological areas by juxtaposing original images with their pseudo-healthy reconstructions generated by models trained exclusively on normal images. However, the clinical interpretation of resultant anomaly maps presents a challenge due to a lack of detailed, understandable explanations. Recent advancements in language models have shown the capability of mimicking human-like understanding and providing detailed descriptions. This raises an interesting question: \textit{How can language models be employed to make the anomaly maps more explainable?} To the best of our knowledge, we are the first to leverage a language model for unsupervised anomaly detection, for which we construct a dataset with different questions and answers. Additionally, we present a novel multi-image visual question answering framework tailored for anomaly detection, incorporating diverse feature fusion strategies to enhance visual knowledge extraction. Our experiments reveal that the framework, augmented by our new Knowledge Q-Former module, adeptly answers questions on the anomaly detection dataset. Besides, integrating anomaly maps as inputs distinctly aids in improving the detection of unseen pathologies.
arxiv情報
著者 | Jun Li,Cosmin I. Bercea,Philip Müller,Lina Felsner,Suhwan Kim,Daniel Rueckert,Benedikt Wiestler,Julia A. Schnabel |
発行日 | 2024-04-11 10:16:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google