MAIRA-1: A specialised large multimodal model for radiology report generation

要約

胸部 X 線 (CXR) から放射線医学レポートを生成するタスクのための放射線学固有のマルチモーダル モデルを紹介します。
私たちの研究は、事前にトレーニングされたビジョン エンコーダーとの調整を通じて、大規模な言語モデルにマルチモーダル機能を装備できるという考えに基づいています。
自然画像では、これにより、マルチモーダル モデルが画像の理解と記述機能を獲得できることが示されています。
私たちが提案するモデル (MAIRA-1) は、CXR 固有の画像エンコーダーと、Vicuna-7B に基づく微調整された大規模言語モデルおよびテキストベースのデータ拡張を活用して、最先端の品質のレポートを作成します。

特に、MAIRA-1 は、放射線科医に合わせた RadCliQ メトリクスと、考慮されたすべての語彙メトリクスを大幅に改善します。
モデル出力を手動でレビューすると、生成されたレポートの流暢性と正確性が期待できることが実証され、既存の評価手法では捉えられなかった障害モードが明らかになります。
詳しい情報とリソースは、プロジェクト Web サイト https://aka.ms/maira でご覧いただけます。

要約(オリジナル)

We present a radiology-specific multimodal model for the task for generating radiological reports from chest X-rays (CXRs). Our work builds on the idea that large language model(s) can be equipped with multimodal capabilities through alignment with pre-trained vision encoders. On natural images, this has been shown to allow multimodal models to gain image understanding and description capabilities. Our proposed model (MAIRA-1) leverages a CXR-specific image encoder in conjunction with a fine-tuned large language model based on Vicuna-7B, and text-based data augmentation, to produce reports with state-of-the-art quality. In particular, MAIRA-1 significantly improves on the radiologist-aligned RadCliQ metric and across all lexical metrics considered. Manual review of model outputs demonstrates promising fluency and accuracy of generated reports while uncovering failure modes not captured by existing evaluation practices. More information and resources can be found on the project website: https://aka.ms/maira.

arxiv情報

著者 Stephanie L. Hyland,Shruthi Bannur,Kenza Bouzid,Daniel C. Castro,Mercy Ranjit,Anton Schwaighofer,Fernando Pérez-García,Valentina Salvatelli,Shaury Srivastav,Anja Thieme,Noel Codella,Matthew P. Lungren,Maria Teodora Wetscherek,Ozan Oktay,Javier Alvarez-Valle
発行日 2024-02-09 18:16:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク