Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models

要約

特定の医療スキャンで正確な病理学的領域の位置を特定することは、正確に解決するために大量の境界ボックスのグラウンド トゥルース アノテーションを必要とする重要なイメージング問題です。
ただし、付随するフリーテキストレポートなど、すぐに利用できる代替の、潜在的に弱い監視形式が存在します。
テキストによるガイダンスを使用してローカリゼーションを実行するタスクは、一般にフレーズ グラウンディングと呼ばれます。
この研究では、この困難なタスクを解決するために、公的に利用可能な基礎モデル、つまり潜在拡散モデルを使用します。
この選択は、潜在拡散モデルが本質的に生成的であるにもかかわらず、視覚的特徴とテキスト的特徴を暗黙的に整合させるメカニズム (相互注意) を含んでおり、したがって当面のタスクに適した中間表現を導くという事実によって裏付けられています。
さらに、このタスクをゼロショット方式で実行することを目指しています。つまり、ターゲット データに対する追加のトレーニングを行わずに、モデルの重みが固定されたままになることを意味します。
この目的を達成するために、特徴を選択する戦略を考案し、追加の学習可能なパラメーターを使用せずに後処理によって特徴を洗練します。
私たちの提案した方法を、対照学習を介して結合埋め込み空間で画像とテキストの位置合わせを明示的に強制する最先端のアプローチと比較します。
一般的な胸部 X 線ベンチマークの結果は、私たちの手法がさまざまなタイプの病理で SOTA と競合し、2 つの指標 (平均 IoU と AUC-ROC) の点で平均して SOTA を上回ることを示しています。
ソースコードは承認され次第公開されます。

要約(オリジナル)

Localizing the exact pathological regions in a given medical scan is an important imaging problem that requires a large amount of bounding box ground truth annotations to be accurately solved. However, there exist alternative, potentially weaker, forms of supervision, such as accompanying free-text reports, which are readily available. The task of performing localization with textual guidance is commonly referred to as phrase grounding. In this work, we use a publicly available Foundation Model, namely the Latent Diffusion Model, to solve this challenging task. This choice is supported by the fact that the Latent Diffusion Model, despite being generative in nature, contains mechanisms (cross-attention) that implicitly align visual and textual features, thus leading to intermediate representations that are suitable for the task at hand. In addition, we aim to perform this task in a zero-shot manner, i.e., without any further training on target data, meaning that the model’s weights remain frozen. To this end, we devise strategies to select features and also refine them via post-processing without extra learnable parameters. We compare our proposed method with state-of-the-art approaches which explicitly enforce image-text alignment in a joint embedding space via contrastive learning. Results on a popular chest X-ray benchmark indicate that our method is competitive wih SOTA on different types of pathology, and even outperforms them on average in terms of two metrics (mean IoU and AUC-ROC). Source code will be released upon acceptance.

arxiv情報

著者 Konstantinos Vilouras,Pedro Sanchez,Alison Q. O’Neil,Sotirios A. Tsaftaris
発行日 2024-04-19 14:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク