DAM: Dynamic Adapter Merging for Continual Video QA Learning

要約

継続的なビデオ質問応答 (VidQA) 学習のためのパラメーター効率の高い方法を紹介します。
DAM と呼ばれる私たちの手法は、提案された動的アダプター マージを使用して、(i) 致命的な忘却を軽減し、(ii) 継続的に到着するデータセットへの効率的な適応を可能にし、(iii) 推論中に未知のデータセットからの入力を処理し、(iv) 全体での知識共有を可能にします。
類似のデータセット ドメイン。
継続的にストリーミングされる一連の VidQA データセットを前提として、事前トレーニングされた大規模なビデオ言語バックボーンのパラメーターをフリーズしながら、データセットごとにデータセット固有のアダプターを順次トレーニングします。
推論中、未知のドメインからのビデオ質問サンプルが与えられると、私たちの方法はまず、提案されたノンパラメトリック ルーター関数を使用して、各アダプタの確率を計算し、そのアダプタが現在のビデオ質問入力インスタンスにどの程度関連しているかを反映します。
その後、提案された動的アダプター マージ スキームは、すべてのアダプターの重みをその特定のテスト サンプルに合わせた新しいアダプター インスタンスに集約して最終的な VidQA 予測を計算し、不正確なルーター予測の影響を軽減し、ドメイン間の知識共有を促進します。
当社の DAM モデルは、従来の最先端の継続学習アプローチよりも 9.1% 優れたパフォーマンスを示し、さまざまなドメインにまたがる 6 つの VidQA データセットでの忘却が 1.9% 少ないことを示しています。
さらに、DAM を継続的な画像分類と画像 QA に拡張し、従来の方法を大幅に上回りました。
コードは https://github.com/klauscc/DAM で公開されています。

要約(オリジナル)

We present a parameter-efficient method for continual video question-answering (VidQA) learning. Our method, named DAM, uses the proposed Dynamic Adapter Merging to (i) mitigate catastrophic forgetting, (ii) enable efficient adaptation to continually arriving datasets, (iii) handle inputs from unknown datasets during inference, and (iv) enable knowledge sharing across similar dataset domains. Given a set of continually streaming VidQA datasets, we sequentially train dataset-specific adapters for each dataset while freezing the parameters of a large pretrained video-language backbone. During inference, given a video-question sample from an unknown domain, our method first uses the proposed non-parametric router function to compute a probability for each adapter, reflecting how relevant that adapter is to the current video-question input instance. Subsequently, the proposed dynamic adapter merging scheme aggregates all the adapter weights into a new adapter instance tailored for that particular test sample to compute the final VidQA prediction, mitigating the impact of inaccurate router predictions and facilitating knowledge sharing across domains. Our DAM model outperforms prior state-of-the-art continual learning approaches by 9.1% while exhibiting 1.9% less forgetting on 6 VidQA datasets spanning various domains. We further extend DAM to continual image classification and image QA and outperform prior methods by a large margin. The code is publicly available at: https://github.com/klauscc/DAM

arxiv情報

著者 Feng Cheng,Ziyang Wang,Yi-Lin Sung,Yan-Bo Lin,Mohit Bansal,Gedas Bertasius
発行日 2024-03-13 17:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク