要約
大規模言語モデル (LLM) の大きな成功に触発されて、既存の X 線医療レポート生成方法では、大規模モデルを活用してパフォーマンスを向上させようとしています。
通常、Transformer を採用して特定の X 線画像の視覚的特徴を抽出し、それを LLM に入力してテキストを生成します。
LLM が最終結果を向上させるために、より効果的な情報を抽出する方法は、解決する必要がある緊急の問題です。
さらに、視覚的な Transformer モデルを使用すると、計算が非常に複雑になります。
これらの問題に対処するために、この論文では、新しいコンテキストに基づいた効率的な X 線医療レポート生成フレームワークを提案します。
具体的には、線形複雑性を備えたビジョン バックボーンとして Mamba を導入し、強力な Transformer モデルに匹敵するパフォーマンスが得られます。
さらに重要なのは、トレーニング フェーズ中に各ミニバッチ内のサンプルのトレーニング セットからコンテキスト取得を実行し、正および負に関連するサンプルの両方を利用して特徴表現と識別学習を強化します。
その後、ビジョン トークン、コンテキスト情報、およびプロンプト ステートメントを供給して、高品質の医療レポートを生成するために LLM を呼び出します。
3 つの X 線レポート生成データセット (IU-Xray、MIMIC-CXR、CheXpert Plus) に関する広範な実験により、提案したモデルの有効性が完全に検証されました。
この作品のソースコードは \url{https://github.com/Event-AHU/Medical_Image_Analysis} で公開されます。
要約(オリジナル)
Inspired by the tremendous success of Large Language Models (LLMs), existing X-ray medical report generation methods attempt to leverage large models to achieve better performance. They usually adopt a Transformer to extract the visual features of a given X-ray image, and then, feed them into the LLM for text generation. How to extract more effective information for the LLMs to help them improve final results is an urgent problem that needs to be solved. Additionally, the use of visual Transformer models also brings high computational complexity. To address these issues, this paper proposes a novel context-guided efficient X-ray medical report generation framework. Specifically, we introduce the Mamba as the vision backbone with linear complexity, and the performance obtained is comparable to that of the strong Transformer model. More importantly, we perform context retrieval from the training set for samples within each mini-batch during the training phase, utilizing both positively and negatively related samples to enhance feature representation and discriminative learning. Subsequently, we feed the vision tokens, context information, and prompt statements to invoke the LLM for generating high-quality medical reports. Extensive experiments on three X-ray report generation datasets (i.e., IU-Xray, MIMIC-CXR, CheXpert Plus) fully validated the effectiveness of our proposed model. The source code of this work will be released on \url{https://github.com/Event-AHU/Medical_Image_Analysis}.
arxiv情報
著者 | Xiao Wang,Yuehang Li,Fuling Wang,Shiao Wang,Chuanfu Li,Bo Jiang |
発行日 | 2024-08-19 07:15:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google