Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity

要約

モダリティが欠けているマルチモーダル機械学習は、ヘルスケアなどのさまざまなアプリケーションで発生し、ますます重要な課題となっています。
この論文は、欠落モダリティに関する現在の研究を低データ領域に拡張します。つまり、下流タスクには欠落モダリティと限られたサンプルサイズの問題の両方があります。
この問題設定は特に困難であり、完全なモダリティ データと十分な注釈付きトレーニング サンプルを取得するには費用がかかることが多いため、実用的でもあります。
私たちは、検索拡張型インコンテキスト学習を使用して、トランスフォーマーのインコンテキスト学習能力の可能性を解き放つことで、これら 2 つの重要な問題に対処することを提案します。
主にパラメトリック パラダイムに属し、多くの場合十分なトレーニング サンプルを必要とする既存の手法とは異なり、私たちの研究は利用可能なフルモダリティ データの価値を活用し、課題を解決するための新しい視点を提供します。
提案されたデータ依存フレームワークは、より高いサンプル効率を示し、さまざまなマルチモーダル学習タスクにわたる低データ領域の完全モダリティ データと欠落モダリティ データの両方で分類モデルのパフォーマンスを向上させることが経験的に実証されています。
トレーニング データの 1% のみが利用可能な場合、私たちが提案した方法は、さまざまなデータセットおよび欠損状態にわたる最近の強力なベースラインと比較して、平均 6.1% の改善を示します。
特に、私たちの方法は、ベースラインと比較して、完全なモダリティデータと欠落モダリティデータ間のパフォーマンスギャップも削減します。

要約(オリジナル)

Multimodal machine learning with missing modalities is an increasingly relevant challenge arising in various applications such as healthcare. This paper extends the current research into missing modalities to the low-data regime, i.e., a downstream task has both missing modalities and limited sample size issues. This problem setting is particularly challenging and also practical as it is often expensive to get full-modality data and sufficient annotated training samples. We propose to use retrieval-augmented in-context learning to address these two crucial issues by unleashing the potential of a transformer’s in-context learning ability. Diverging from existing methods, which primarily belong to the parametric paradigm and often require sufficient training samples, our work exploits the value of the available full-modality data, offering a novel perspective on resolving the challenge. The proposed data-dependent framework exhibits a higher degree of sample efficiency and is empirically demonstrated to enhance the classification model’s performance on both full- and missing-modality data in the low-data regime across various multimodal learning tasks. When only 1% of the training data are available, our proposed method demonstrates an average improvement of 6.1% over a recent strong baseline across various datasets and missing states. Notably, our method also reduces the performance gap between full-modality and missing-modality data compared with the baseline.

arxiv情報

著者 Zhuo Zhi,Ziquan Liu,Moe Elbadawi,Adam Daneshmend,Mine Orlu,Abdul Basit,Andreas Demosthenous,Miguel Rodrigues
発行日 2024-03-26 17:38:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク