Robust Multimodal Learning via Cross-Modal Proxy Tokens

要約

マルチモーダルモデルは、推論中に1つ以上のモダリティが欠落している場合、多くの場合、パフォーマンスが大幅に低下します。
この課題に対処するために、すべてのモダリティが利用可能になったときに強力なパフォーマンスを維持しながら、モダリティの欠落に対する堅牢性を高めるシンプルで効果的なアプローチを提案します。
私たちの方法では、明示的なモダリティ生成または補助ネットワークを必要とせずに利用可能なモダリティのトークンのみに参加することにより、欠落しているモダリティのクラストークンに近似するクロスモーダルプロキシトークン(CMPTS)を紹介します。
これらの近似値を最小限の計算オーバーヘッドで効率的に学習するために、冷凍単峰性エンコーダーに低ランクアダプターを使用し、タスク固有の損失でアライメント損失を共同で最適化します。
5つのマルチモーダルデータセットでの広範な実験は、私たちの方法が、完全なモダリティ設定で競争の激しい結果を達成しながら、さまざまな欠落レートで最先端のベースラインよりも優れていることを示しています。
全体として、私たちの方法は、堅牢なマルチモーダル学習のための柔軟で効率的なソリューションを提供します。
コードモデルと前処理されたモデルはGitHubでリリースされます。

要約(オリジナル)

Multimodal models often experience a significant performance drop when one or more modalities are missing during inference. To address this challenge, we propose a simple yet effective approach that enhances robustness to missing modalities while maintaining strong performance when all modalities are available. Our method introduces cross-modal proxy tokens (CMPTs), which approximate the class token of a missing modality by attending only to the tokens of the available modality without requiring explicit modality generation or auxiliary networks. To efficiently learn these approximations with minimal computational overhead, we employ low-rank adapters in frozen unimodal encoders and jointly optimize an alignment loss with a task-specific loss. Extensive experiments on five multimodal datasets show that our method outperforms state-of-the-art baselines across various missing rates while achieving competitive results in complete-modality settings. Overall, our method offers a flexible and efficient solution for robust multimodal learning. The code and pretrained models will be released on GitHub.

arxiv情報

著者 Md Kaykobad Reza,Ameya Patil,Mashhour Solh,M. Salman Asif
発行日 2025-06-02 16:21:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク