Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation

要約

マルチモーダル大規模言語モデル (MLLM) には、主に放射線医学レポートの生成に焦点を当てたエキサイティングな医療アプリケーションを自由に探索できるようになりました。
それにもかかわらず、2D 放射線学キャプションの暫定的な成功は、体積測定の 3D 解剖学における現実世界の診断上の課題を反映するには不十分です。
(1) データの複雑さ、(2) モデルの能力、(3) 評価指標の忠実度など、既存の文献にある 3 つの重大な制限の側面を軽減するために、18,885 個のテキストスキャン ペアの 3D-BrainCT データセットを収集し、臨床視覚指導の調整を適用しました。
(CVIT) BrainGPT モデルをトレーニングして、放射線医学に準拠した 3D 脳 CT レポートを生成します。
統計的に、当社の BrainGPT は内部テスト中に BLEU-1 = 44.35、BLEU-4 = 20.38、METEOR = 30.13、ROUGE-L = 47.6、および CIDEr-R = 211.77 のスコアを獲得し、外部検証で正中線のシフトのキャプションの精度が 0.91 であることを実証しました。
CQ500 データセット。
キャプション付きのレポートをさらに調査したところ、従来の指標は表面的なテキストの類似性のみを測定しているようで、診断目的の情報密度を測定できていないことがわかりました。
このギャップを埋めるために、レポートの臨床的関連性(病変の特徴とランドマーク)を推定するための新しい機能指向放射線学タスク評価(FORTE)を提案しました。
特に、BrainGPT モデルの平均 FORTE F1 スコアは 0.71 (度 = 0.661、ランドマーク = 0.706、特徴 = 0.693、印象 = 0.779) でした。
BrainGPT モデルが人間のような放射線医学レポートを生成する客観的な準備ができていることを実証するために、11 人の医師の評価者を登録してチューリング テストを実施したところ、BrainGPT が生成したキャプションの約 74% が人間が書いたキャプションと区別できませんでした。
私たちの仕事は、3D 脳 CT データセットのキュレーション、解剖学に適した言語モデルの微調整、堅牢な放射線医学評価指標の提案という直接の経験を示す総合的なフレームワークを体現しています。

要約(オリジナル)

Multi-modal large language models (MLLMs) have been given free rein to explore exciting medical applications with a primary focus on radiology report generation. Nevertheless, the preliminary success in 2D radiology captioning is incompetent to reflect the real-world diagnostic challenge in the volumetric 3D anatomy. To mitigate three crucial limitation aspects in the existing literature, including (1) data complexity, (2) model capacity, and (3) evaluation metric fidelity, we collected an 18,885 text-scan pairs 3D-BrainCT dataset and applied clinical visual instruction tuning (CVIT) to train BrainGPT models to generate radiology-adherent 3D brain CT reports. Statistically, our BrainGPT scored BLEU-1 = 44.35, BLEU-4 = 20.38, METEOR = 30.13, ROUGE-L = 47.6, and CIDEr-R = 211.77 during internal testing and demonstrated an accuracy of 0.91 in captioning midline shifts on the external validation CQ500 dataset. By further inspecting the captioned report, we reported that the traditional metrics appeared to measure only the surface text similarity and failed to gauge the information density of the diagnostic purpose. To close this gap, we proposed a novel Feature-Oriented Radiology Task Evaluation (FORTE) to estimate the report’s clinical relevance (lesion feature and landmarks). Notably, the BrainGPT model scored an average FORTE F1-score of 0.71 (degree=0.661; landmark=0.706; feature=0.693; impression=0.779). To demonstrate that BrainGPT models possess objective readiness to generate human-like radiology reports, we conducted a Turing test that enrolled 11 physician evaluators, and around 74% of the BrainGPT-generated captions were indistinguishable from those written by humans. Our work embodies a holistic framework that showcased the first-hand experience of curating a 3D brain CT dataset, fine-tuning anatomy-sensible language models, and proposing robust radiology evaluation metrics.

arxiv情報

著者 Cheng-Yi Li,Kao-Jung Chang,Cheng-Fu Yang,Hsin-Yu Wu,Wenting Chen,Hritik Bansal,Ling Chen,Yi-Ping Yang,Yu-Chun Chen,Shih-Pin Chen,Jiing-Feng Lirng,Kai-Wei Chang,Shih-Hwa Chiou
発行日 2024-07-02 12:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク