要約
診断決定のために収集された医療データは通常、マルチモーダルであり、主題に関する包括的な情報を提供します。
コンピューター支援診断システムはマルチモーダル入力の恩恵を受けることができますが、そのようなデータを効果的に融合させることは、困難なタスクであり、医学研究の重要な焦点です。
この論文では、マルチモーダル医療データを調整および融合するために、Alifuseと呼ばれるトランスベースのフレームワークを提案します。
具体的には、医療画像と構造化されていない臨床記録と構造化された臨床記録の両方を視力と言語のトークンに変換し、分類のためのすべてのイメージングと非イメージデータの統一された表現を学習するために、イントラモーダルおよびインターモーダルの注意メカニズムを採用します。
さらに、復元モデリングを対照的な学習フレームワークと統合し、画像とテキスト間の高レベルのセマンティックアライメント、およびあるモダリティの低レベルの理解を別のモダリティの助けを借りて共同で学習します。
Alifuseを適用して、アルツハイマー病を分類し、5つのパブリックデータセットで最先端のパフォーマンスを達成し、8つのベースラインを上回ります。
要約(オリジナル)
Medical data collected for diagnostic decisions are typically multimodal, providing comprehensive information on a subject. While computer-aided diagnosis systems can benefit from multimodal inputs, effectively fusing such data remains a challenging task and a key focus in medical research. In this paper, we propose a transformer-based framework, called Alifuse, for aligning and fusing multimodal medical data. Specifically, we convert medical images and both unstructured and structured clinical records into vision and language tokens, employing intramodal and intermodal attention mechanisms to learn unified representations of all imaging and non-imaging data for classification. Additionally, we integrate restoration modeling with contrastive learning frameworks, jointly learning the high-level semantic alignment between images and texts and the low-level understanding of one modality with the help of another. We apply Alifuse to classify Alzheimer’s disease, achieving state-of-the-art performance on five public datasets and outperforming eight baselines.
arxiv情報
著者 | Qiuhui Chen,Yi Hong |
発行日 | 2025-01-31 15:04:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google