要約
深層学習モデルは、実際の問題にうまく適用できます。
ただし、これらのモデルのほとんどをトレーニングするには、大量のデータが必要です。
最近の方法は言語とビジョンを使用していますが、残念ながら、通常は公開されていないデータセットに依存しています。
ここで、放射線学のマルチモーダル言語視覚ドメインにおけるさらなる研究への道が開かれました。
このホワイト ペーパーでは、一般に公開されているインディアナ大学放射線学レポート (IU-RR) データセットに基づいて、注意メカニズムを通じて言語と視覚のローカルおよびグローバルな表現を使用する表現学習方法をトレーニングします。
さらに、学習した表現を使用して、無気肺、心肥大、浮腫、胸水、硬化の 5 つの肺の病状を診断します。
最後に、教師付き分類とゼロショット分類の両方を使用して、IU-RR データセットでの表現学習のパフォーマンスを広範囲に分析します。
平均曲線下面積 (AUC) を使用して、5 つの肺病変を分類するための分類子の精度を評価します。
IU-RR テスト セットで 5 つの肺病変を分類するための平均 AUC は、異なるトレーニング データセット、つまり CheXpert と CheXphoto を使用して 0.85 から 0.87 の範囲でした。
これらの結果は、UI-RR を使用した他の研究と比較して優れています。
広範な実験により、言語および視覚情報のマルチモーダル グローバル ローカル表現を使用して、肺の病状を分類するための一貫した結果が確認されています。
要約(オリジナル)
Deep learning models can be applied successfully in real-work problems; however, training most of these models requires massive data. Recent methods use language and vision, but unfortunately, they rely on datasets that are not usually publicly available. Here we pave the way for further research in the multimodal language-vision domain for radiology. In this paper, we train a representation learning method that uses local and global representations of the language and vision through an attention mechanism and based on the publicly available Indiana University Radiology Report (IU-RR) dataset. Furthermore, we use the learned representations to diagnose five lung pathologies: atelectasis, cardiomegaly, edema, pleural effusion, and consolidation. Finally, we use both supervised and zero-shot classifications to extensively analyze the performance of the representation learning on the IU-RR dataset. Average Area Under the Curve (AUC) is used to evaluate the accuracy of the classifiers for classifying the five lung pathologies. The average AUC for classifying the five lung pathologies on the IU-RR test set ranged from 0.85 to 0.87 using the different training datasets, namely CheXpert and CheXphoto. These results compare favorably to other studies using UI-RR. Extensive experiments confirm consistent results for classifying lung pathologies using the multimodal global local representations of language and vision information.
arxiv情報
著者 | Nathan Hadjiyski,Ali Vosoughi,Axel Wismueller |
発行日 | 2023-01-26 06:02:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google