Boosting Multi-modal Model Performance with Adaptive Gradient Modulation

要約

マルチモーダル学習の分野は急速に成長を続けていますが、標準的な共同トレーニング パラダイムの欠陥が最近の研究によって明らかになりました。
彼らは、共同トレーニングされたモデルの次善のパフォーマンスはモダリティ競合現象のせいだと考えています。
既存の研究では、トレーニング プロセスを調整することで共同トレーニングされたモデルを改善しようとしています。
その有効性にもかかわらず、これらの方法は後期融合モデルにのみ適用できます。
さらに重要なことは、モダリティ競争のメカニズムはまだ解明されていないことです。
この論文では、最初に、さまざまな融合戦略を使用してマルチモーダル モデルのパフォーマンスを向上させることができる適応勾配変調方法を提案します。
広範な実験により、私たちの方法が既存のすべての変調方法を超えることが示されました。
さらに、モダリティの競合と変調手法の有効性の背後にあるメカニズムを定量的に理解するために、競合の強さを測定するための新しい指標を導入します。
この指標は、モダリティの競合のない状態を表すように設計された関数であるモノモーダルの概念に基づいて構築されています。
体系的な調査を通じて、私たちの結果は、変調がモデルがより有益なモダリティに依存することを促進するという直観を裏付けています。
さらに、共同トレーニングされたモデルには通常、他のモダリティよりも競合が弱い優先モダリティがあることがわかりました。
ただし、この好ましい様式が他の様式を支配する必要はありません。
私たちのコードは https://github.com/lihong2303/AGM_ICCV2023 で入手できます。

要約(オリジナル)

While the field of multi-modal learning keeps growing fast, the deficiency of the standard joint training paradigm has become clear through recent studies. They attribute the sub-optimal performance of the jointly trained model to the modality competition phenomenon. Existing works attempt to improve the jointly trained model by modulating the training process. Despite their effectiveness, those methods can only apply to late fusion models. More importantly, the mechanism of the modality competition remains unexplored. In this paper, we first propose an adaptive gradient modulation method that can boost the performance of multi-modal models with various fusion strategies. Extensive experiments show that our method surpasses all existing modulation methods. Furthermore, to have a quantitative understanding of the modality competition and the mechanism behind the effectiveness of our modulation method, we introduce a novel metric to measure the competition strength. This metric is built on the mono-modal concept, a function that is designed to represent the competition-less state of a modality. Through systematic investigation, our results confirm the intuition that the modulation encourages the model to rely on the more informative modality. In addition, we find that the jointly trained model typically has a preferred modality on which the competition is weaker than other modalities. However, this preferred modality need not dominate others. Our code will be available at https://github.com/lihong2303/AGM_ICCV2023.

arxiv情報

著者 Hong Li,Xingyu Li,Pengbo Hu,Yinuo Lei,Chunxiao Li,Yi Zhou
発行日 2023-08-15 10:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク