ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders

要約

言語/画像調整 X 線の埋め込み (ELIXR) と呼ばれる私たちのアプローチは、固定 LLM、PaLM 2 に結合または移植された言語調整画像エンコーダーを利用して、幅広いタスクを実行します。
MIMIC-CXR データセットからの対応するフリーテキストの放射線医学レポートと組み合わせた画像を使用して、この軽量アダプター アーキテクチャをトレーニングします。
ELIXR は、ゼロショット胸部 X 線 (CXR) 分類 (13 の所見で平均 AUC 0.850)、データ効率の高い CXR 分類 (5 つの所見 (無気肺、無気肺、
1% (約 2,200 画像) および 10% (約 22,000 画像) のトレーニング データ)、およびセマンティック検索 (完全検索を含む 19 クエリにわたる 0.76 正規化割引累積ゲイン (NDCG))
そのうちの12件)。
教師あり対比学習 (SupCon) などの既存のデータ効率の高い手法と比較して、ELIXR は同様のパフォーマンスを達成するために必要なデータが 2 桁少なくなりました。
ELIXR は CXR 視覚言語タスクでも有望であることを示し、視覚的な質問応答とレポート品質保証タスクでそれぞれ 58.7% と 62.5% の全体的な精度を示しました。
これらの結果は、ELIXR が CXR AI に対する堅牢かつ多用途のアプローチであることを示唆しています。

要約(オリジナル)

Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or ELIXR, leverages a language-aligned image encoder combined or grafted onto a fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight adapter architecture using images paired with corresponding free-text radiology reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13 findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898 across five findings (atelectasis, cardiomegaly, consolidation, pleural effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images) training data), and semantic search (0.76 normalized discounted cumulative gain (NDCG) across nineteen queries, including perfect retrieval on twelve of them). Compared to existing data-efficient methods including supervised contrastive learning (SupCon), ELIXR required two orders of magnitude less data to reach similar performance. ELIXR also showed promise on CXR vision-language tasks, demonstrating overall accuracies of 58.7% and 62.5% on visual question answering and report quality assurance tasks, respectively. These results suggest that ELIXR is a robust and versatile approach to CXR AI.

arxiv情報

著者 Shawn Xu,Lin Yang,Christopher Kelly,Marcin Sieniek,Timo Kohlberger,Martin Ma,Wei-Hung Weng,Attila Kiraly,Sahar Kazemzadeh,Zakkai Melamed,Jungyeon Park,Patricia Strachan,Yun Liu,Chuck Lau,Preeti Singh,Christina Chen,Mozziyar Etemadi,Sreenivasa Raju Kalidindi,Yossi Matias,Katherine Chou,Greg S. Corrado,Shravya Shetty,Daniel Tse,Shruthi Prabhakara,Daniel Golden,Rory Pilgrim,Krish Eswaran,Andrew Sellergren
発行日 2023-08-02 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク