ReconBoost: Boosting Can Achieve Modality Reconcilement

要約

この論文では、ユニモーダル機能の活用とクロスモーダル相互作用の探索の間の調和を追求する、新しいマルチモーダル交互学習パラダイムを探求します。
これは、マルチモーダル学習の現在のパラダイムがマルチモーダル機能を同時に探索する傾向があるという事実によって動機付けられています。
結果として生じる勾配により、弱いモダリティの機能をさらに活用することができなくなり、優勢なモダリティが学習プロセスを圧倒するモダリティの競争が発生します。
この問題に対処するために、私たちは調和を達成するためのモダリティ交互学習パラダイムを研究します。
具体的には、固定モダリティを毎回更新するReconBoostと呼ばれる新しい手法を提案します。
ここで、学習目標は、履歴モデルとの競合に対して調整正則化によって動的に調整されます。
KL ベースの調整を選択することで、提案された方法が Friedman の勾配ブースティング (GB) アルゴリズムに似ていることを示します。更新された学習器は他の学習者が犯したエラーを修正し、全体的なパフォーマンスの向上に役立ちます。
従来の GB との主な違いは、強力な学習器のアンサンブルによって引き起こされる過剰適合を回避するために、モダリティごとに最新のモデルのみを保存することです。
さらに、この戦略をより効果的にするために、メモリ統合スキームとグローバル調整スキームを提案します。
6 つのマルチモーダル ベンチマークに関する実験により、この方法の有効性がわかります。
コードは https://github.com/huacong/ReconBoost でリリースされます。

要約(オリジナル)

This paper explores a novel multi-modal alternating learning paradigm pursuing a reconciliation between the exploitation of uni-modal features and the exploration of cross-modal interactions. This is motivated by the fact that current paradigms of multi-modal learning tend to explore multi-modal features simultaneously. The resulting gradient prohibits further exploitation of the features in the weak modality, leading to modality competition, where the dominant modality overpowers the learning process. To address this issue, we study the modality-alternating learning paradigm to achieve reconcilement. Specifically, we propose a new method called ReconBoost to update a fixed modality each time. Herein, the learning objective is dynamically adjusted with a reconcilement regularization against competition with the historical models. By choosing a KL-based reconcilement, we show that the proposed method resembles Friedman’s Gradient-Boosting (GB) algorithm, where the updated learner can correct errors made by others and help enhance the overall performance. The major difference with the classic GB is that we only preserve the newest model for each modality to avoid overfitting caused by ensembling strong learners. Furthermore, we propose a memory consolidation scheme and a global rectification scheme to make this strategy more effective. Experiments over six multi-modal benchmarks speak to the efficacy of the method. We release the code at https://github.com/huacong/ReconBoost.

arxiv情報

著者 Cong Hua,Qianqian Xu,Shilong Bao,Zhiyong Yang,Qingming Huang
発行日 2024-05-15 13:22:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク