要約
マルチモーダル学習は通常、トレーニング フェーズと推論フェーズの両方ですべてのモダリティが完全に利用可能であるという前提に基づいています。
ただし、現実のシナリオでは、完全なマルチモーダル データを一貫して取得することは、さまざまな要因により大きな課題となります。
これは多くの場合、特定のモダリティのデータが存在しない欠落モダリティの問題につながり、マルチモーダルな事前トレーニング済みモデルの可用性だけでなく、その微調整や下流タスクでの堅牢性の維持にも大きな障害をもたらします。
これらの課題に対処するために、単峰性事前学習モデルのパラメータ効率の高い微調整と自己教師あり結合埋め込み学習法を統合した新しいフレームワークを提案します。
このフレームワークにより、モデルは推論中に表現空間への欠落モダリティの埋め込みを予測できるようになります。
私たちの方法は、利用可能なモダリティからの情報を活用して、迅速な調整を通じて欠落している埋め込みを効果的に予測します。
私たちは、いくつかのマルチモーダル ベンチマーク データセットでアプローチを評価し、欠落しているモダリティのさまざまなシナリオにわたってその有効性と堅牢性を実証します。
要約(オリジナル)
Multimodal learning typically relies on the assumption that all modalities are fully available during both the training and inference phases. However, in real-world scenarios, consistently acquiring complete multimodal data presents significant challenges due to various factors. This often leads to the issue of missing modalities, where data for certain modalities are absent, posing considerable obstacles not only for the availability of multimodal pretrained models but also for their fine-tuning and the preservation of robustness in downstream tasks. To address these challenges, we propose a novel framework integrating parameter-efficient fine-tuning of unimodal pretrained models with a self-supervised joint-embedding learning method. This framework enables the model to predict the embedding of a missing modality in the representation space during inference. Our method effectively predicts the missing embedding through prompt tuning, leveraging information from available modalities. We evaluate our approach on several multimodal benchmark datasets and demonstrate its effectiveness and robustness across various scenarios of missing modalities.
arxiv情報
著者 | Donggeun Kim,Taesup Kim |
発行日 | 2024-07-17 14:44:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google