Revisiting Pre-training in Audio-Visual Learning

要約

事前トレーニング手法は、さまざまなタスクでモデルのパフォーマンスを向上させることに大きな成功を収めていますが、一部の単一モードの状況では、最初からトレーニングするよりもパフォーマンスが悪いことがわかりました.
これは私たちに考えさせます:事前訓練されたモデルは、より複雑なマルチモーダルシナリオ、特にオーディオやビジュアルなどの異種モダリティで常に効果的ですか?
答えはノーです。具体的には、クロスモーダル初期化とマルチモーダル共同学習という 2 つの視聴覚学習シナリオに対する事前トレーニング済みモデルの効果を調べます。
クロスモーダル初期化が適用されると、異常な Batchnorm パラメーターによって引き起こされる「デッド チャネル」の現象がモデル容量の利用を妨げます。
したがって、ターゲットタスクの事前トレーニング済みモデルの容量をより有効に活用するために、Adaptive Batchnorm Re-initialization (ABRi) を提案します。
マルチモーダル共同学習では、強力な事前トレーニング済みのユニモーダル エンコーダーが別のモダリティのエンコーダーに悪影響を与えることがわかりました。
このような問題を軽減するために、2 段階の Fusion Tuning 戦略を導入し、事前にトレーニングされた知識をより有効に活用しながら、ユニモーダル エンコーダーを適応マスキング法と連携させます。
実験結果は、私たちの方法が事前トレーニング済みモデルの可能性をさらに活用し、視聴覚学習のパフォーマンスを向上させることができることを示しています。

要約(オリジナル)

Pre-training technique has gained tremendous success in enhancing model performance on various tasks, but found to perform worse than training from scratch in some uni-modal situations. This inspires us to think: are the pre-trained models always effective in the more complex multi-modal scenario, especially for the heterogeneous modalities such as audio and visual ones? We find that the answer is No. Specifically, we explore the effects of pre-trained models on two audio-visual learning scenarios: cross-modal initialization and multi-modal joint learning. When cross-modal initialization is applied, the phenomena of ‘dead channel’ caused by abnormal Batchnorm parameters hinders the utilization of model capacity. Thus, we propose Adaptive Batchnorm Re-initialization (ABRi) to better exploit the capacity of pre-trained models for target tasks. In multi-modal joint learning, we find a strong pre-trained uni-modal encoder would bring negative effects on the encoder of another modality. To alleviate such problem, we introduce a two-stage Fusion Tuning strategy, taking better advantage of the pre-trained knowledge while making the uni-modal encoders cooperate with an adaptive masking method. The experiment results show that our methods could further exploit pre-trained models’ potential and boost performance in audio-visual learning.

arxiv情報

著者 Ruoxuan Feng,Wenke Xia,Di Hu
発行日 2023-02-17 09:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク