LLM-RG4: Flexible and Factual Radiology Report Generation across Diverse Input Contexts

要約

放射線医学レポートの作成は柔軟性を必要とする複雑なタスクであり、放射線科医は入手可能な情報と特定の臨床上の要求に合わせて内容を調整します。
しかし、現在のほとんどの放射線レポート生成 (RRG) モデルは、単一の画像から完全な「所見」セクションを予測するなど、固定されたタスク パラダイムに制約されており、本質的に入力と出力間の不一致を伴います。
トレーニングされたモデルは多様な入力に対する柔軟性に欠けており、有害な入力に依存しない幻覚を生成する可能性があります。
現在の RRG モデルと実際の臨床需要との間のギャップを埋めるために、まずデータ生成パイプラインを開発して、新しい MIMIC-RG4 データセットを作成します。このデータセットは、4 つの一般的な放射線医学レポート作成シナリオを考慮し、入力と出力が完全に対応しています。
次に、LLM の柔軟な命令追従機能と広範な一般知識を利用する、新しい大規模言語モデル (LLM) ベースの RRG フレームワーク、つまり LLM-RG4 を提案します。
さらに、入力量の増加に伴う追加の計算負荷を最小限に抑えながら、異なる入力の組み合わせによる多様なシナリオを処理する柔軟性を提供する適応型トークン融合モジュールを開発します。
さらに、モデルの注意を肯定的で不確実な記述に向けるために、トークンレベルの損失重み付け戦略を提案します。
実験結果は、LLM-RG4 が MIMIC-RG4 および MIMIC-CXR データセットでの臨床効率と自然言語生成の両方において最先端のパフォーマンスを達成することを示しています。
現在のオープンソース モデルは一般的にこの問題に悩まされているのに対し、私たちのモデルには入力に依存しない幻覚が最小限であることを定量的に示しています。

要約(オリジナル)

Drafting radiology reports is a complex task requiring flexibility, where radiologists tail content to available information and particular clinical demands. However, most current radiology report generation (RRG) models are constrained to a fixed task paradigm, such as predicting the full “finding” section from a single image, inherently involving a mismatch between inputs and outputs. The trained models lack the flexibility for diverse inputs and could generate harmful, input-agnostic hallucinations. To bridge the gap between current RRG models and the clinical demands in practice, we first develop a data generation pipeline to create a new MIMIC-RG4 dataset, which considers four common radiology report drafting scenarios and has perfectly corresponded input and output. Secondly, we propose a novel large language model (LLM) based RRG framework, namely LLM-RG4, which utilizes LLM’s flexible instruction-following capabilities and extensive general knowledge. We further develop an adaptive token fusion module that offers flexibility to handle diverse scenarios with different input combinations, while minimizing the additional computational burden associated with increased input volumes. Besides, we propose a token-level loss weighting strategy to direct the model’s attention towards positive and uncertain descriptions. Experimental results demonstrate that LLM-RG4 achieves state-of-the-art performance in both clinical efficiency and natural language generation on the MIMIC-RG4 and MIMIC-CXR datasets. We quantitatively demonstrate that our model has minimal input-agnostic hallucinations, whereas current open-source models commonly suffer from this problem.

arxiv情報

著者 Zhuhao Wang,Yihua Sun,Zihan Li,Xuan Yang,Fang Chen,Hongen Liao
発行日 2024-12-16 17:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク