One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering

要約

視覚言語モデル (VLM) は、Web スケールのマルチモーダル データセットを活用することで、視覚的質問応答 (VQA) タスクにおいて大きな可能性を示しています。
ただし、これらのモデルは、新しいタスクに適応する際の壊滅的な忘却のため、継続的な学習に苦労することがよくあります。
壊滅的な物忘れを軽減するための効果的な治療法として、リハーサル戦略は新しいタスクを学習する際に過去のタスクのデータを使用します。
ただし、このような戦略では過去のデータを保存する必要があり、ハードウェアの制約やプライバシーの問題により実現できない可能性があります。
この研究では、外部モデルに依存するのではなく、VLM の言語生成機能を利用して、継続的な VQA に対処するための疑似リハーサル データを生成する、最初のデータフリーの方法を提案します。
GaBと名付けられた私たちの提案は、新しいタスクデータに対して以前のタスクの質問を投げかけることによって疑似リハーサルデータを生成します。
しかし、効果的であるにもかかわらず、タスク固有のトレーニング データが限られているため、生成された質問の分布は、最も頻繁に提示される質問に偏っています。
この問題を軽減するために、質問メタ統計または教師なしクラスタリング手法のいずれかを使用して、生成されたデータをグラウンドトゥルース データ分布に合わせて調整する疑似リハーサル バランシング モジュールを導入します。
提案した手法を、最近の 2 つのベンチマーク、つまり VQACL-VQAv2 および CLOVE 関数ベンチマークで評価します。
GaB は、過去のデータにアクセスできるメソッドと同等でありながら、進化するタスク全体で VQA パフォーマンスを維持する点で大幅な改善が見られ、すべてのデータフリー ベースラインを上回ります。

要約(オリジナル)

Vision-Language Models (VLMs) have shown significant promise in Visual Question Answering (VQA) tasks by leveraging web-scale multimodal datasets. However, these models often struggle with continual learning due to catastrophic forgetting when adapting to new tasks. As an effective remedy to mitigate catastrophic forgetting, rehearsal strategy uses the data of past tasks upon learning new task. However, such strategy incurs the need of storing past data, which might not be feasible due to hardware constraints or privacy concerns. In this work, we propose the first data-free method that leverages the language generation capability of a VLM, instead of relying on external models, to produce pseudo-rehearsal data for addressing continual VQA. Our proposal, named as GaB, generates pseudo-rehearsal data by posing previous task questions on new task data. Yet, despite being effective, the distribution of generated questions skews towards the most frequently posed questions due to the limited and task-specific training data. To mitigate this issue, we introduce a pseudo-rehearsal balancing module that aligns the generated data towards the ground-truth data distribution using either the question meta-statistics or an unsupervised clustering method. We evaluate our proposed method on two recent benchmarks, \ie VQACL-VQAv2 and CLOVE-function benchmarks. GaB outperforms all the data-free baselines with substantial improvement in maintaining VQA performance across evolving tasks, while being on-par with methods with access to the past data.

arxiv情報

著者 Deepayan Das,Davide Talon,Massimiliano Mancini,Yiming Wang,Elisa Ricci
発行日 2024-11-04 16:04:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク