要約
マルチモーダル学習は、多くの場合、最適なパフォーマンスを実現するために、新しいモデルと複雑なトレーニング戦略の設計に依存しています。
さまざまなマルチモーダルタスクに低ランク適応(LORA)を使用して、共同で事前に微調整されたユニモーダルエンコーダーを共同で微調整する統一ユニモーダル適応(U2A)を提示します。
私たちの方法は、学習可能なパラメーターの数を大幅に削減し、トレーニング、勾配の変更、単峰性の微調整などの複雑なトレーニング戦略の必要性を排除します。
トレーニングとテストの両方で欠落しているモダリティに対処するために、Mask Tokens(MT)を導入します。これは、モダリティごとに単一のトークンを使用して、利用可能なモダリティから欠落しているモダリティ機能を生成します。
これにより、プロセスが簡素化され、特殊な機能の推定または迅速な調整方法が必要になります。
私たちの評価は、U2Aが完全なモダリティ設定と欠落している両方のモダリティ設定の両方で一致またはアートの方法を上回ることを示しており、さまざまなモダリティ、タスク、およびデータセットにわたって強力なパフォーマンスと堅牢性を示しています。
また、異なる欠落したモダリティシナリオでマスクトークンの有効性を分析および報告します。
全体として、私たちの方法は、最小限の計算オーバーヘッドで、マルチモーダル学習のための堅牢で柔軟で効率的なソリューションを提供します。
要約(オリジナル)
Multimodal learning often relies on designing new models and complex training strategies to achieve optimal performance. We present Unified Unimodal Adaptation (U2A), which jointly fine-tunes pretrained unimodal encoders using low-rank adaptation (LoRA) for various multimodal tasks. Our method significantly reduces the number of learnable parameters and eliminates the need for complex training strategies, such as alternating training, gradient modifications, or unimodal fine-tuning. To address missing modalities during both training and testing, we introduce Mask Tokens (MT), which generate missing modality features from available modalities using a single token per modality. This simplifies the process, removing the need for specialized feature estimation or prompt-tuning methods. Our evaluation demonstrates that U2A matches or outperforms state-of-the-art methods in both complete and missing modality settings, showcasing strong performance and robustness across various modalities, tasks, and datasets. We also analyze and report the effectiveness of Mask Tokens in different missing modality scenarios. Overall, our method provides a robust, flexible, and efficient solution for multimodal learning, with minimal computational overhead.
arxiv情報
著者 | Md Kaykobad Reza,Niki Nezakati,Ameya Patil,Mashhour Solh,M. Salman Asif |
発行日 | 2025-01-29 18:15:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google