要約
マルチモーダル学習の強みは、様々な情報源からの情報を統合し、豊かで包括的な洞察を提供する能力にある。しかし、実世界のシナリオでは、マルチモーダルシステムはしばしば動的なモダリティの寄与という課題に直面し、異なるモダリティの優位性が環境に応じて変化する可能性があり、マルチモーダル学習における最適なパフォーマンスには至らない。現在の手法では、マルチモーダル表現の偏りのバランスを取るために、主に弱いモダリティを強化するが、これは必然的に部分モダリティの観点から最適化されるため、支配的なモダリティのパフォーマンスが低下しやすい。この問題に対処するため、我々はマルチモーダル表現バイアスに対抗する非対称強化法(Asymmetric Reinforcing method against Multimodal Representation Bias: ARM)を提案する。我々のARMは、条件付き相互情報によって支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。さらに、特定のモダリティを最適化することが情報損失を引き起こし、マルチモーダルデータの利点をフルに活用することを妨げる可能性があることを詳細に分析する。優位性を探り、モダリティ間の寄与ギャップを狭めることで、我々はマルチモーダル学習の性能を大幅に向上させ、不均衡なマルチモーダル学習を緩和する顕著な進歩を遂げた。
要約(オリジナル)
The strength of multimodal learning lies in its ability to integrate information from various sources, providing rich and comprehensive insights. However, in real-world scenarios, multi-modal systems often face the challenge of dynamic modality contributions, the dominance of different modalities may change with the environments, leading to suboptimal performance in multimodal learning. Current methods mainly enhance weak modalities to balance multimodal representation bias, which inevitably optimizes from a partialmodality perspective, easily leading to performance descending for dominant modalities. To address this problem, we propose an Asymmetric Reinforcing method against Multimodal representation bias (ARM). Our ARM dynamically reinforces the weak modalities while maintaining the ability to represent dominant modalities through conditional mutual information. Moreover, we provide an in-depth analysis that optimizing certain modalities could cause information loss and prevent leveraging the full advantages of multimodal data. By exploring the dominance and narrowing the contribution gaps between modalities, we have significantly improved the performance of multimodal learning, making notable progress in mitigating imbalanced multimodal learning.
arxiv情報
著者 | Xiyuan Gao,Bing Cao,Pengfei Zhu,Nannan Wang,Qinghua Hu |
発行日 | 2025-01-02 13:00:06+00:00 |
arxivサイト | arxiv_id(pdf) |