Language Models Meet Anomaly Detection for Better Interpretability and Generalizability

要約

この研究では、医療画像処理における言語モデルと教師なし異常検出の統合を検討し、次の 2 つの重要な質問に取り組みます: (1) 言語モデルは異常検出マップの解釈可能性を高めることができますか?
(2) 異常マップは、オープンセット異常検出タスクにおける言語モデルの一般化可能性を向上させることができますか?
これらの疑問を調査するために、複数の条件を含む脳磁気共鳴画像に対する複数画像の視覚的質問応答のための新しいデータセットを導入します。
私たちは、限られたサンプルのコンテキストで視覚情報とテキスト情報を最適に配置するように設計された KQ-Former (Knowledge Querying Transformer) を提案します。
私たちのモデルはクローズド質問に対して 60.81% の精度を達成し、15 の異なるクラスにわたる疾患分類と重症度をカバーしています。
未解決の質問では、KQ-Former は BLEU-4 スコア 0.41 でベースラインと比較して 70% の改善を示し、さまざまな自然言語の中で最も高い含意率 (最大 71.9%) と最も低い矛盾率 (10.0% まで) を達成しました。
推論モデル。
さらに、異常マップを統合すると、オープンセット異常の検出精度が 18% 向上し、これまでに見られなかった病状に対する言語モデルの一般化可能性が高まります。
コードとデータセットは https://github.com/compai-lab/miccai-2024-junli?tab=readme-ov-file から入手できます。

要約(オリジナル)

This research explores the integration of language models and unsupervised anomaly detection in medical imaging, addressing two key questions: (1) Can language models enhance the interpretability of anomaly detection maps? and (2) Can anomaly maps improve the generalizability of language models in open-set anomaly detection tasks? To investigate these questions, we introduce a new dataset for multi-image visual question-answering on brain magnetic resonance images encompassing multiple conditions. We propose KQ-Former (Knowledge Querying Transformer), which is designed to optimally align visual and textual information in limited-sample contexts. Our model achieves a 60.81% accuracy on closed questions, covering disease classification and severity across 15 different classes. For open questions, KQ-Former demonstrates a 70% improvement over the baseline with a BLEU-4 score of 0.41, and achieves the highest entailment ratios (up to 71.9%) and lowest contradiction ratios (down to 10.0%) among various natural language inference models. Furthermore, integrating anomaly maps results in an 18% accuracy increase in detecting open-set anomalies, thereby enhancing the language model’s generalizability to previously unseen medical conditions. The code and dataset are available at https://github.com/compai-lab/miccai-2024-junli?tab=readme-ov-file

arxiv情報

著者 Jun Li,Su Hwan Kim,Philip Müller,Lina Felsner,Daniel Rueckert,Benedikt Wiestler,Julia A. Schnabel,Cosmin I. Bercea
発行日 2024-07-23 11:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク