要約
最新の視覚言語モデル (VLM) を介して胸部 X 線 (CXR) の理解に向けて方法論が大幅に進歩し、優れた視覚的質問応答 (VQA) および CXR レポート生成能力が実証されました。
ただし、既存の CXR 理解フレームワークには、手順上の注意点がまだいくつかあります。
(1) 以前の方法では CXR レポートのみが使用されており、特に薬歴や以前の診断などの追加の健康関連データが必要な場合、包括的な視覚的質問応答 (VQA) には不十分です。
(2) 以前の方法では生の CXR レポートが使用されており、多くの場合、これは任意に構造化されています。
最新の言語モデルはさまざまなテキスト形式を理解できますが、レポートを再構築してより明確で組織化された解剖学ベースの情報を得ることで、その有用性が高まる可能性があります。
(3) CXR-VQA の現在の評価方法は主に言語的な正しさを重視しており、生成された回答の微妙な評価を提供する機能が不足しています。
この作業では、前述の警告に対処するために、CXR を理解するための広範な大規模言語モデル フレームワークである WoLF を導入します。
(1) を解決するために、私たちは患者の多面的な記録を取得し、それを実際の臨床シナリオでの正確な診断に活用します。
具体的には、電子医療記録(EHR)を採用し、CXRの理解に適した指導後のデータを生成します。
(2) に関しては、マスクされた注意を介して注意ステップ内でも解剖学的構造に基づいて CXR レポートの知識を分離することで、レポート生成パフォーマンスを向上させます。
(3) に対処するために、LLM の機能を評価するために最適化された AI 評価プロトコルを導入します。
広範な実験検証を通じて、WoLF は、VQA に関する AI 評価分野 (平均スコア +9.47%p) およびレポート生成に関する指標 (BLEU-1 +7.3%p) において、MIMIC-CXR の他のモデルよりも優れたパフォーマンスを示しています。
要約(オリジナル)
Significant methodological strides have been made toward Chest X-ray (CXR) understanding via modern vision-language models (VLMs), demonstrating impressive Visual Question Answering (VQA) and CXR report generation abilities. However, existing CXR understanding frameworks still possess several procedural caveats. (1) Previous methods solely use CXR reports, which are insufficient for comprehensive Visual Question Answering (VQA), especially when additional health-related data like medication history and prior diagnoses are needed. (2) Previous methods use raw CXR reports, which are often arbitrarily structured. While modern language models can understand various text formats, restructuring reports for clearer, organized anatomy-based information could enhance their usefulness. (3) Current evaluation methods for CXR-VQA primarily emphasize linguistic correctness, lacking the capability to offer nuanced assessments of the generated answers. In this work, to address the aforementioned caveats, we introduce WoLF, a Wide-scope Large Language Model Framework for CXR understanding. To resolve (1), we capture multi-faceted records of patients, which are utilized for accurate diagnoses in real-world clinical scenarios. Specifically, we adopt the Electronic Health Records (EHR) to generate instruction-following data suited for CXR understanding. Regarding (2), we enhance report generation performance by decoupling knowledge in CXR reports based on anatomical structure even within the attention step via masked attention. To address (3), we introduce an AI-evaluation protocol optimized for assessing the capabilities of LLM. Through extensive experimental validations, WoLF demonstrates superior performance over other models on MIMIC-CXR in the AI-evaluation arena about VQA (up to +9.47%p mean score) and by metrics about report generation (+7.3%p BLEU-1).
arxiv情報
著者 | Seil Kang,Donghyun Kim,Junhyeok Kim,Hyo Kyung Lee,Seong Jae Hwang |
発行日 | 2024-03-28 16:40:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google