Multimodal Classification via Modal-Aware Interactive Enhancement

要約

マルチモーダル学習(Multimodal Learning: MML)は、モダリティのアンバランス問題により、最適化のアンバランス現象が発生し、満足な性能が得られない。近年、性能を向上させるための代表的な手法がいくつか提案されており、主に各モダリティの最適化を適応的に調整し、優勢なモダリティと非優勢なモダリティの学習速度のバランスを調整することに焦点が当てられている。本論文では、マルチモーダル学習におけるモデル情報の相互作用をより促進するために、モーダル認識対話的強化(MIE)と呼ばれる新しいマルチモーダル学習法を提案する。具体的には、まず、シャープネスを考慮した最小化(SAM)に基づく最適化戦略を利用し、前進段階における学習目的を平滑化する。次に、SAMの幾何学的性質の助けを借りて、後方フェーズにおいて異なるモダリティ間の影響を課すための勾配修正戦略を提案する。したがって、マルチモーダル学習において、汎化能力の向上とモダリティ忘却現象の緩和を同時に実現することができる。広く利用されているデータセットを用いた広範な実験により、我々の提案手法が様々な最新のベースラインを凌駕し、最高の性能を達成できることを実証する。

要約(オリジナル)

Due to the notorious modality imbalance problem, multimodal learning (MML) leads to the phenomenon of optimization imbalance, thus struggling to achieve satisfactory performance. Recently, some representative methods have been proposed to boost the performance, mainly focusing on adaptive adjusting the optimization of each modality to rebalance the learning speed of dominant and non-dominant modalities. To better facilitate the interaction of model information in multimodal learning, in this paper, we propose a novel multimodal learning method, called modal-aware interactive enhancement (MIE). Specifically, we first utilize an optimization strategy based on sharpness aware minimization (SAM) to smooth the learning objective during the forward phase. Then, with the help of the geometry property of SAM, we propose a gradient modification strategy to impose the influence between different modalities during the backward phase. Therefore, we can improve the generalization ability and alleviate the modality forgetting phenomenon simultaneously for multimodal learning. Extensive experiments on widely used datasets demonstrate that our proposed method can outperform various state-of-the-art baselines to achieve the best performance.

arxiv情報

著者 Qing-Yuan Jiang,Zhouyang Chi,Yang Yang
発行日 2024-07-05 15:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク