Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation

要約

マルチモーダル学習は、複数のソースからのデータを利用して、下流タスクの全体的なパフォーマンスを向上させることを目的としています。
マルチモーダル システムを、いくつかの相関モダリティでの観測の欠落または破損に対して堅牢にするためには、データの冗長性が望ましいです。
ただし、テスト時に 1 つまたは複数のモダリティが存在しない場合、いくつかの既存のマルチモーダル ネットワークのパフォーマンスが大幅に低下することが観察されています。
欠落モダリティに対する堅牢性を可能にするために、事前学習されたマルチモーダル ネットワークに対するシンプルでパラメーター効率の高い適応手順を提案します。
特に、中間特徴の変調を活用して、欠落しているモダリティを補います。
我々は、このような適応により、モダリティの欠落によるパフォーマンスの低下を部分的に橋渡しでき、場合によっては、利用可能なモダリティの組み合わせに対してトレーニングされた独立した専用ネットワークよりも優れたパフォーマンスを発揮できることを実証します。
提案された適応は、非常に少数のパラメータ(例えば、総パラメータの0.7%未満)を必要とし、広範囲のモダリティの組み合わせおよびタスクに適用可能である。
マルチモーダル セマンティック セグメンテーション、マルチモーダル マテリアル セグメンテーション、およびマルチモーダル感情分析タスクの 5 つの異なるデータセットに対して、提案手法に欠けているモダリティの堅牢性を強調する一連の実験を実行します。
私たちが提案した手法は、さまざまなタスクやデータセットにわたる汎用性を実証し、モダリティが欠落している堅牢なマルチモーダル学習に関して既存の手法を上回ります。

要約(オリジナル)

Multimodal learning seeks to utilize data from multiple sources to improve the overall performance of downstream tasks. It is desirable for redundancies in the data to make multimodal systems robust to missing or corrupted observations in some correlated modalities. However, we observe that the performance of several existing multimodal networks significantly deteriorates if one or multiple modalities are absent at test time. To enable robustness to missing modalities, we propose a simple and parameter-efficient adaptation procedure for pretrained multimodal networks. In particular, we exploit modulation of intermediate features to compensate for the missing modalities. We demonstrate that such adaptation can partially bridge performance drop due to missing modalities and outperform independent, dedicated networks trained for the available modality combinations in some cases. The proposed adaptation requires extremely small number of parameters (e.g., fewer than 0.7% of the total parameters) and applicable to a wide range of modality combinations and tasks. We conduct a series of experiments to highlight the missing modality robustness of our proposed method on 5 different datasets for multimodal semantic segmentation, multimodal material segmentation, and multimodal sentiment analysis tasks. Our proposed method demonstrates versatility across various tasks and datasets, and outperforms existing methods for robust multimodal learning with missing modalities.

arxiv情報

著者 Md Kaykobad Reza,Ashley Prater-Bennette,M. Salman Asif
発行日 2024-02-26 06:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク