Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray Report Generation

要約

【タイトル】マルチモーダル画像 – テキストマッチングは、検索に基づく胸部X線報告書の生成を改善する

【要約】診療所での正確な放射線学的報告書の自動生成は、患者の治療に役立ちます。画像のキャプションモデルに依存する以前の報告生成方法は、関連するドメイン知識の欠如により、無関係または不正確なテキストを生成する場合があります。一方、検索に基づく方法は、入力画像と関連性のない報告書を頻繁に取得します。そこで、我々はContrastive X-Ray REport Match (X-REM)を提案しました。これは画像とテキストの類似度を測定するための画像 – テキストマッチングスコアを使用して、検索ベースの放射線学的報告書生成モジュールを提供します。言語 – 画像モデルで画像 – テキストマッチングスコアを計算すると、コサイン類似度を使用する場合にしばしば失われる細粒度の相互作用を効果的に捕捉できることがわかります。X-REMは、自然言語および臨床尺度の両方の観点で、複数の過去の放射線学的報告書生成モジュールを超える性能を発揮します。生成された報告書の人間による評価は、X-REMが基本的な検索アプローチと比較して、ゼロエラーの報告書の数を増やし、平均エラーの重症度を減らすことを示しています。 我々のコードは、https://github.com/rajpurkarlab/X-REMで利用可能です。

【要点】

– 正確な診察報告書の自動生成は患者治療に役立つ
– 以前の方法では画像キャプションモデルに依存するため、誤ったテキスト生成が発生する可能性がある
– 本研究では、画像とテキストの類似度を測定するためのContrastive X-Ray REport Match (X-REM)を使用する検索ベースの放射線学的報告書生成モジュールを提唱
– 言語 – 画像モデルで画像 – テキストマッチングスコアを計算すると、コサイン類似度を使用する場合に失われる細粒度の相互作用を効果的に捕捉可能
– X-REMは、自然言語および臨床尺度の両方の観点で、複数の過去の放射線学的報告書生成モジュールを超える性能を発揮する
– 人間による評価結果は、X-REMが基本的な検索アプローチと比較して、ゼロエラーの報告書の数を増やし、平均エラーの重症度を減らすことを示している
– コードは https://github.com/rajpurkarlab/X-REM で利用可能

要約(オリジナル)

Automated generation of clinically accurate radiology reports can improve patient care. Previous report generation methods that rely on image captioning models often generate incoherent and incorrect text due to their lack of relevant domain knowledge, while retrieval-based attempts frequently retrieve reports that are irrelevant to the input image. In this work, we propose Contrastive X-Ray REport Match (X-REM), a novel retrieval-based radiology report generation module that uses an image-text matching score to measure the similarity of a chest X-ray image and radiology report for report retrieval. We observe that computing the image-text matching score with a language-image model can effectively capture the fine-grained interaction between image and text that is often lost when using cosine similarity. X-REM outperforms multiple prior radiology report generation modules in terms of both natural language and clinical metrics. Human evaluation of the generated reports suggests that X-REM increased the number of zero-error reports and decreased the average error severity compared to the baseline retrieval approach. Our code is available at: https://github.com/rajpurkarlab/X-REM

arxiv情報

著者 Jaehwan Jeong,Katherine Tian,Andrew Li,Sina Hartung,Fardad Behzadi,Juan Calle,David Osayande,Michael Pohlen,Subathra Adithan,Pranav Rajpurkar
発行日 2023-05-02 21:03:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク