SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models

要約

Radiology Report Generation (R2Gen) は、マルチモーダル大規模言語モデル (MLLM) がどのようにして正確で一貫性のある放射線レポートの作成を自動化できるかを示します。
既存の方法では、画像の内容を正確に反映していないテキストベースのレポートの詳細が幻覚のように表示されることがよくあります。
これを軽減するために、新しい戦略である SERPENT-VLM (ビジョン言語モデルを使用した SElf Refining Radiology RePort GENeraTion) を導入します。これは、自己リファイニング メカニズムを MLLM フレームワークに統合することで R2Gen タスクを改善します。
私たちは、標準的な因果言語モデリング目標と並行して、プールされた画像表現と生成された放射線医学的テキストのコンテキスト表現の間の類似性を活用する独自の自己教師あり損失を採用して、画像テキスト表現を改良します。
これにより、モデルは、特定の画像と生成されたテキストの間の動的な相互作用を通じて、生成されたテキストを精査して位置合わせすることができるため、幻覚が軽減され、微妙なニュアンスのレポート生成が継続的に強化されます。
SERPENT-VLM は、LLaVA-Med、BiomedGPT などの既存のベースラインを上回り、IU X 線および COntext の放射線学オブジェクト (ROCO) データセットで SoTA パフォーマンスを達成し、ノイズの多い画像に対しても堅牢であることが証明されています。
定性的なケーススタディでは、R2Gen のより洗練された MLLM フレームワークに向けた重要な進歩が強調されており、医療画像領域における自己監視型改良のさらなる研究への道が開かれています。

要約(オリジナル)

Radiology Report Generation (R2Gen) demonstrates how Multi-modal Large Language Models (MLLMs) can automate the creation of accurate and coherent radiological reports. Existing methods often hallucinate details in text-based reports that don’t accurately reflect the image content. To mitigate this, we introduce a novel strategy, SERPENT-VLM (SElf Refining Radiology RePort GENeraTion using Vision Language Models), which improves the R2Gen task by integrating a self-refining mechanism into the MLLM framework. We employ a unique self-supervised loss that leverages similarity between pooled image representations and the contextual representations of the generated radiological text, alongside the standard Causal Language Modeling objective, to refine image-text representations. This allows the model to scrutinize and align the generated text through dynamic interaction between a given image and the generated text, therefore reducing hallucination and continuously enhancing nuanced report generation. SERPENT-VLM outperforms existing baselines such as LLaVA-Med, BiomedGPT, etc., achieving SoTA performance on the IU X-ray and Radiology Objects in COntext (ROCO) datasets, and also proves to be robust against noisy images. A qualitative case study emphasizes the significant advancements towards more sophisticated MLLM frameworks for R2Gen, opening paths for further research into self-supervised refinement in the medical imaging domain.

arxiv情報

著者 Manav Nitin Kapadnis,Sohan Patnaik,Abhilash Nandy,Sourjyadip Ray,Pawan Goyal,Debdoot Sheet
発行日 2024-07-18 16:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク