要約
多様な感覚モードからのデータを統合するマルチモーダル学習は、人工知能において極めて重要な役割を果たします。
しかし、既存のマルチモーダル学習方法は、マルチモーダル学習中に一部のモダリティが他のモダリティよりも優勢に見えるという課題に悩まされることが多く、その結果、最適なパフォーマンスが得られません。
この課題に対処するために、私たちは MLA (交互単峰性適応によるマルチモーダル学習) を提案します。
MLA は、従来の共同マルチモーダル学習プロセスを交互のユニモーダル学習プロセスに変換することで再構築し、それによりモダリティ間の干渉を最小限に抑えます。
同時に、共有ヘッドを通じてクロスモーダルインタラクションをキャプチャし、異なるモダリティ間で継続的な最適化が行われます。
この最適化プロセスは、共有ヘッドが以前に取得した情報を失うことを防ぐために、勾配変更メカニズムによって制御されます。
推論フェーズ中に、MLA はテスト時の不確実性ベースのモデル融合メカニズムを利用して、マルチモーダルな情報を統合します。
完全なモダリティを含むシナリオとモダリティが欠落しているシナリオを含む、5 つの多様なデータセットに対して広範な実験が行われます。
これらの実験は、競合する従来のアプローチに対する MLA の優位性を示しています。
要約(オリジナル)
Multimodal learning, which integrates data from diverse sensory modes, plays a pivotal role in artificial intelligence. However, existing multimodal learning methods often struggle with challenges where some modalities appear more dominant than others during multimodal learning, resulting in suboptimal performance. To address this challenge, we propose MLA (Multimodal Learning with Alternating Unimodal Adaptation). MLA reframes the conventional joint multimodal learning process by transforming it into an alternating unimodal learning process, thereby minimizing interference between modalities. Simultaneously, it captures cross-modal interactions through a shared head, which undergoes continuous optimization across different modalities. This optimization process is controlled by a gradient modification mechanism to prevent the shared head from losing previously acquired information. During the inference phase, MLA utilizes a test-time uncertainty-based model fusion mechanism to integrate multimodal information. Extensive experiments are conducted on five diverse datasets, encompassing scenarios with complete modalities and scenarios with missing modalities. These experiments demonstrate the superiority of MLA over competing prior approaches.
arxiv情報
著者 | Xiaohui Zhang,Jaehong Yoon,Mohit Bansal,Huaxiu Yao |
発行日 | 2023-11-17 18:57:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google