HyperMM : Robust Multimodal Learning with Varying-sized Inputs

要約

マルチモーダル学習 (MML) を通じて相補的な情報を伝達する複数のモダリティを組み合わせると、複数の病状を診断する上で多大なメリットが得られることが示されています。
ただし、欠落モダリティに対するマルチモーダル モデルの堅牢性はしばしば見落とされます。
ほとんどの研究では入力データのモダリティが完全であることを前提としていますが、臨床現場ではモダリティが不完全であることが一般的です。
この問題に対処する既存のソリューションは、教師あり学習モデルを使用する前にモダリティ代入戦略に依存しています。
ただし、これらの戦略は複雑で計算コストが高く、その後の予測モデルに大きな影響を与える可能性があります。
したがって、医療などの機密性の高いアプリケーションでは、できるだけ節約して使用する必要があります。
私たちは、さまざまなサイズの入力を使用して学習するために設計されたエンドツーエンドのフレームワークである HyperMM を提案します。
具体的には、トレーニング前に代入を使用せずに、画像モダリティが欠落している教師あり MML のタスクに焦点を当てます。
条件付きハイパーネットワークを使用してユニバーサル特徴抽出器をトレーニングするための新しい戦略を導入し、2 フェーズのタスクに依存しないフレームワークで、抽出された特徴を処理するためにさまざまな次元の入力を処理できる順列不変ニューラル ネットワークを提案します。
アルツハイマー病の検出と乳がんの分類という 2 つのタスクにおけるこの方法の利点を実験的に示します。
私たちの戦略が高率の欠損データに対して堅牢であり、その柔軟性により、欠損モダリティのシナリオを超えてさまざまなサイズのデータ​​セットを処理できることを実証します。

要約(オリジナル)

Combining multiple modalities carrying complementary information through multimodal learning (MML) has shown considerable benefits for diagnosing multiple pathologies. However, the robustness of multimodal models to missing modalities is often overlooked. Most works assume modality completeness in the input data, while in clinical practice, it is common to have incomplete modalities. Existing solutions that address this issue rely on modality imputation strategies before using supervised learning models. These strategies, however, are complex, computationally costly and can strongly impact subsequent prediction models. Hence, they should be used with parsimony in sensitive applications such as healthcare. We propose HyperMM, an end-to-end framework designed for learning with varying-sized inputs. Specifically, we focus on the task of supervised MML with missing imaging modalities without using imputation before training. We introduce a novel strategy for training a universal feature extractor using a conditional hypernetwork, and propose a permutation-invariant neural network that can handle inputs of varying dimensions to process the extracted features, in a two-phase task-agnostic framework. We experimentally demonstrate the advantages of our method in two tasks: Alzheimer’s disease detection and breast cancer classification. We demonstrate that our strategy is robust to high rates of missing data and that its flexibility allows it to handle varying-sized datasets beyond the scenario of missing modalities.

arxiv情報

著者 Hava Chaptoukaev,Vincenzo Marcianó,Francesco Galati,Maria A. Zuluaga
発行日 2024-07-30 12:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク