要約
自動放射線レポートの生成は、医師のワークロードを軽減し、医療資源の地域の格差を最小限に抑えることができ、したがって、医療画像分析分野の重要なトピックになります。
計算モデルは医師を模倣してマルチモーダル入力データ(つまり、医療画像、臨床情報、医療知識など)から情報を取得し、包括的かつ正確なレポートを作成する必要があるため、困難なタスクです。
最近、変圧器、対照学習、知識ベースの構造などの深い学習ベースの方法を使用して、この問題に対処するために多くの作品が登場しています。
この調査では、最新の研究で開発された重要な手法を要約し、マルチモダリティデータ収集、データの準備、機能学習、機能融合と相互作用、レポート生成など、5つの主要なコンポーネントを使用して、ディープラーニングベースのレポート生成の一般的なワークフローを提案します。
これらの各コンポーネントの最先端の方法が強調表示されます。
さらに、パブリックデータセット、評価方法、現在の課題、およびこの分野の将来の方向性とともに、大規模なモデルベースの方法とモデルの説明可能性の最新の開発を要約します。
また、同じ実験設定で異なる方法間の定量的比較を実施しました。
これは、放射線レポート生成のためのマルチモダリティ入力とデータ融合に焦点を当てた最も最新の調査です。
目的は、特にマルチモーダル入力を使用する場合、自動臨床レポートの生成と医療画像分析に関心のある研究者に包括的で豊富な情報を提供し、フィールドを進めるための新しいアルゴリズムの開発を支援することです。
要約(オリジナル)
Automatic radiology report generation can alleviate the workload for physicians and minimize regional disparities in medical resources, therefore becoming an important topic in the medical image analysis field. It is a challenging task, as the computational model needs to mimic physicians to obtain information from multi-modal input data (i.e., medical images, clinical information, medical knowledge, etc.), and produce comprehensive and accurate reports. Recently, numerous works have emerged to address this issue using deep-learning-based methods, such as transformers, contrastive learning, and knowledge-base construction. This survey summarizes the key techniques developed in the most recent works and proposes a general workflow for deep-learning-based report generation with five main components, including multi-modality data acquisition, data preparation, feature learning, feature fusion and interaction, and report generation. The state-of-the-art methods for each of these components are highlighted. Additionally, we summarize the latest developments in large model-based methods and model explainability, along with public datasets, evaluation methods, current challenges, and future directions in this field. We have also conducted a quantitative comparison between different methods in the same experimental setting. This is the most up-to-date survey that focuses on multi-modality inputs and data fusion for radiology report generation. The aim is to provide comprehensive and rich information for researchers interested in automatic clinical report generation and medical image analysis, especially when using multimodal inputs, and to assist them in developing new algorithms to advance the field.
arxiv情報
著者 | Xinyi Wang,Grazziela Figueredo,Ruizhe Li,Wei Emma Zhang,Weitong Chen,Xin Chen |
発行日 | 2025-03-06 17:18:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google