要約
大規模な言語モデル(LLMS)は、放射線レポート生成を含むさまざまなドメインで顕著な能力を示しています。
以前のアプローチでは、このタスクにマルチモーダルLLMSを利用しようとし、ドメイン固有の知識検索の統合を通じてパフォーマンスを向上させました。
ただし、これらのアプローチは、LLMS内に既に組み込まれている知識を見落としていることが多く、冗長な情報統合につながります。
この制限に対処するために、補足的な知識注入を伴う放射線レポート生成を強化するためのフレームワークであるレーダーを提案します。
レーダーは、LLMの内部知識と外部から取得された情報の両方を体系的に活用することにより、レポート生成を改善します。
具体的には、最初に、エキスパートの画像ベースの分類出力と一致するモデルの獲得した知識を抽出します。
次に、関連する補足知識を取得して、この情報をさらに豊かにします。
最後に、両方のソースを集約することにより、レーダーはより正確で有益な放射線レポートを生成します。
Mimic-CXR、Chexpert-Plus、およびIU X線に関する広範な実験は、モデルが言語の質と臨床精度の両方で最先端のLLMを上回ることを示しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable capabilities in various domains, including radiology report generation. Previous approaches have attempted to utilize multimodal LLMs for this task, enhancing their performance through the integration of domain-specific knowledge retrieval. However, these approaches often overlook the knowledge already embedded within the LLMs, leading to redundant information integration. To address this limitation, we propose Radar, a framework for enhancing radiology report generation with supplementary knowledge injection. Radar improves report generation by systematically leveraging both the internal knowledge of an LLM and externally retrieved information. Specifically, it first extracts the model’s acquired knowledge that aligns with expert image-based classification outputs. It then retrieves relevant supplementary knowledge to further enrich this information. Finally, by aggregating both sources, Radar generates more accurate and informative radiology reports. Extensive experiments on MIMIC-CXR, CheXpert-Plus, and IU X-ray demonstrate that our model outperforms state-of-the-art LLMs in both language quality and clinical accuracy.
arxiv情報
著者 | Wenjun Hou,Yi Cheng,Kaishuai Xu,Heng Li,Yan Hu,Wenjie Li,Jiang Liu |
発行日 | 2025-06-02 05:56:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google