A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data

要約

放射線レポートの自動作成は医師の負担を軽減し、医療リソースの地域格差を最小限に抑えることができるため、医用画像解析分野において重要なテーマとなっています。
マルチモーダル入力データ (医療画像、臨床情報、医療知識など) から情報を取得し、包括的で正確なレポートを作成するには、計算モデルが医師を模倣する必要があるため、これは困難な作業です。
最近、トランスフォーマー、対照学習、知識ベース構築などの深層学習ベースの手法を使用して、この問題に対処するための多くの研究が登場しました。
この調査では、最新の研究で開発された主要な技術を要約し、マルチモダリティ データ取得、データ準備、特徴学習、特徴融合/相互作用、レポート生成を含む 5 つの主要コンポーネントで構成される深層学習ベースのレポート生成の一般的なワークフローを提案します。

これらの各コンポーネントの最先端のメソッドが強調表示されます。
さらに、この分野におけるトレーニング戦略、公開データセット、評価方法、現在の課題、将来の方向性についてもまとめられています。
また、同じ実験環境で異なる方法間の定量的な比較も実施しました。
これは、放射線レポート作成のためのマルチモダリティ入力とデータ融合に焦点を当てた最新の調査です。
その目的は、特にマルチモーダル入力を使用する場合に、臨床レポートの自動生成と医用画像分析に関心のある研究者に包括的で豊富な情報を提供し、この分野を前進させるための新しいアルゴリズムの開発を支援することです。

要約(オリジナル)

Automatic radiology report generation can alleviate the workload for physicians and minimize regional disparities in medical resources, therefore becoming an important topic in the medical image analysis field. It is a challenging task, as the computational model needs to mimic physicians to obtain information from multi-modal input data (i.e., medical images, clinical information, medical knowledge, etc.), and produce comprehensive and accurate reports. Recently, numerous works emerged to address this issue using deep learning-based methods, such as transformers, contrastive learning, and knowledge-base construction. This survey summarizes the key techniques developed in the most recent works and proposes a general workflow for deep learning-based report generation with five main components, including multi-modality data acquisition, data preparation, feature learning, feature fusion/interaction, and report generation. The state-of-the-art methods for each of these components are highlighted. Additionally, training strategies, public datasets, evaluation methods, current challenges, and future directions in this field are summarized. We have also conducted a quantitative comparison between different methods under the same experimental setting. This is the most up-to-date survey that focuses on multi-modality inputs and data fusion for radiology report generation. The aim is to provide comprehensive and rich information for researchers interested in automatic clinical report generation and medical image analysis, especially when using multimodal inputs, and assist them in developing new algorithms to advance the field.

arxiv情報

著者 Xinyi Wang,Grazziela Figueredo,Ruizhe Li,Wei Emma Zhang,Weitong Chen,Xin Chen
発行日 2024-05-21 14:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク