FORESEE: Multimodal and Multi-view Representation Learning for Robust Prediction of Cancer Survival

要約

がん患者のさまざまなデータモダリティを統合すると、患者の生存率の予測パフォーマンスを大幅に向上させることができます。
しかし、既存の方法のほとんどは、病理画像内のさまざまなスケールでの豊富な意味論的特徴の同時利用を無視しています。
マルチモーダル データを収集して特徴を抽出する場合、モダリティ内の欠損データが発生し、マルチモーダル データにノイズが混入する可能性があります。
これらの課題に対処するために、この論文では、マルチモーダルな情報をマイニングすることで患者の生存を確実に予測するための新しいエンドツーエンドのフレームワーク FORESEE を提案します。
具体的には、クロスフュージョントランスフォーマーは、細胞レベル、組織レベル、および腫瘍の不均一性レベルでの特徴を効果的に利用し、クロススケール特徴クロスフュージョン法を通じて予後を相関させます。
これにより、病理画像の特徴表現の能力が向上します。
次に、ハイブリッド アテンション エンコーダ (HAE) は、ノイズ除去コンテキスト アテンション モジュールを使用して、分子データのコンテキスト関係の特徴と局所的な詳細の特徴を取得します。
HAE のチャネル アテンション モジュールは、分子データのグローバルな特徴を取得します。
さらに、モダリティ内の欠落情報の問題に対処するために、モダリティ内の欠落情報を再構築するための非対称マスクトリプレットマスクオートエンコーダを提案します。
広範な実験により、完全な設定と欠落した設定の両方で 4 つのベンチマーク データセットで最先端の方法よりも当社の方法が優れていることが実証されました。

要約(オリジナル)

Integrating the different data modalities of cancer patients can significantly improve the predictive performance of patient survival. However, most existing methods ignore the simultaneous utilization of rich semantic features at different scales in pathology images. When collecting multimodal data and extracting features, there is a likelihood of encountering intra-modality missing data, introducing noise into the multimodal data. To address these challenges, this paper proposes a new end-to-end framework, FORESEE, for robustly predicting patient survival by mining multimodal information. Specifically, the cross-fusion transformer effectively utilizes features at the cellular level, tissue level, and tumor heterogeneity level to correlate prognosis through a cross-scale feature cross-fusion method. This enhances the ability of pathological image feature representation. Secondly, the hybrid attention encoder (HAE) uses the denoising contextual attention module to obtain the contextual relationship features and local detail features of the molecular data. HAE’s channel attention module obtains global features of molecular data. Furthermore, to address the issue of missing information within modalities, we propose an asymmetrically masked triplet masked autoencoder to reconstruct lost information within modalities. Extensive experiments demonstrate the superiority of our method over state-of-the-art methods on four benchmark datasets in both complete and missing settings.

arxiv情報

著者 Liangrui Pan,Yijun Peng,Yan Li,Yiyi Liang,Liwen Xu,Qingchun Liang,Shaoliang Peng
発行日 2024-05-13 12:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク