要約
継続的学習は、以前のタスクのパフォーマンス低下を最小限に抑えながら新しいタスクを学習することを目的として、一連のタスクでモデルを段階的にトレーニングすることに重点を置いています。
継続学習とビジュアル質問応答 (VQA) が交わる既存のアプローチでは、入力のマルチモーダルな性質がモデルの学習ダイナミクスにどのような影響を与えるかを研究していません。
この論文では、各モダリティが一連のタスク全体にわたって異なる速度で進化すること、およびこの動作が確立されたエンコーダのみのモデルだけでなく、視覚と言語 (VL) モデルを開発するための最新のレシピでも発生することを実証します。
この観察に動機付けられて、私たちは 3 つのマルチモーダルな継続学習設定でさまざまな規模のモデルにわたって既存のベースラインを上回るモダリティ認識特徴抽出 (MAFED) アプローチを提案します。
さらに、モダリティを意識した蒸留が経験の再現を補完することを示すアブレーションを提供します。
全体として、私たちの結果は、マルチモーダルな継続学習における忘れを防ぐために、モダリティ固有のダイナミクスに対処することの重要性を強調しています。
要約(オリジナル)
Continual learning focuses on incrementally training a model on a sequence of tasks with the aim of learning new tasks while minimizing performance drop on previous tasks. Existing approaches at the intersection of Continual Learning and Visual Question Answering (VQA) do not study how the multimodal nature of the input affects the learning dynamics of a model. In this paper, we demonstrate that each modality evolves at different rates across a continuum of tasks and that this behavior occurs in established encoder-only models as well as modern recipes for developing Vision & Language (VL) models. Motivated by this observation, we propose a modality-aware feature distillation (MAFED) approach which outperforms existing baselines across models of varying scale in three multimodal continual learning settings. Furthermore, we provide ablations showcasing that modality-aware distillation complements experience replay. Overall, our results emphasize the importance of addressing modality-specific dynamics to prevent forgetting in multimodal continual learning.
arxiv情報
著者 | Malvina Nikandrou,Georgios Pantazopoulos,Ioannis Konstas,Alessandro Suglia |
発行日 | 2024-06-27 16:12:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google