CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering

要約

大規模ビジョン言語モデル (VLM) は、さまざまなアプリケーション ドメインで大幅なパフォーマンスの向上を示しています。
しかし、連続して発生するいくつかのタスクに対処するために VLM を採用することは困難でした。タスクに対して VLM を微調整すると、一般化能力と新しいタスクの学習能力が低下し、以前に学習したタスクを壊滅的に忘れてしまうからです。
マルチモーダル継続学習 (CL) 設定で VLM の使用を有効にすると、このようなシナリオに対処するのに役立ちます。
一般化能力を向上させ、壊滅的な忘却を防ぐために、VLM 用の新しいプロンプトベースの CL メソッド、つまり $\textbf{Clu}$ster ベースの $\textbf{Mo}$dality Fusion Prompt (\textbf{CluMo}) を提案します。
新しい \textbf{Key-Key-Prompt} ペアを設計します。各プロンプトは、視覚的なプロンプト キーとテキストのプロンプト キーに関連付けられます。
私たちは二段階のトレーニング戦略を採用しています。
最初の段階では、意味的に最も一致するプロンプトを選択できるように、$K$-means クラスタリング アルゴリズムを介して単一モーダル キーがトレーニングされます。
第 2 段階では、プロンプト キーがフリーズされ、選択したプロンプトが CL シナリオで VLM をトレーニングするための入力に接続されます。
2 つのベンチマークでの実験により、私たちの方法が SOTA パフォーマンスを達成できることが実証されました。

要約(オリジナル)

Large vision-language models (VLMs) have shown significant performance boost in various application domains. However, adopting them to deal with several sequentially encountered tasks has been challenging because finetuning a VLM on a task normally leads to reducing its generalization power and the capacity of learning new tasks as well as causing catastrophic forgetting on previously learned tasks. Enabling using VLMs in multimodal continual learning (CL) settings can help to address such scenarios. To improve generalization capacity and prevent catastrophic forgetting, we propose a novel prompt-based CL method for VLMs, namely $\textbf{Clu}$ster-based $\textbf{Mo}$dality Fusion Prompt (\textbf{CluMo}). We design a novel \textbf{Key-Key-Prompt} pair, where each prompt is associated with a visual prompt key and a textual prompt key. We adopt a two-stage training strategy. During the first stage, the single-modal keys are trained via $K$-means clustering algorithm to help select the best semantically matched prompt. During the second stage, the prompt keys are frozen, the selected prompt is attached to the input for training the VLM in the CL scenario. Experiments on two benchmarks demonstrate that our method achieves SOTA performance.

arxiv情報

著者 Yuliang Cai,Mohammad Rostami
発行日 2024-08-21 16:07:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク