Generative Negative Text Replay for Continual Vision-Language Pretraining

要約

視覚言語プレトレーニング (VLP) は、最近ますます注目を集めています。
大量の画像とテキストのペアを使用して、コントラスト ロスでトレーニングされた VLP モデルは、さまざまなタスク、特に下流のデータセットでのゼロ ショットの一般化で印象的なパフォーマンスを達成しました。
ただし、実際のアプリケーションでは、通常、大量のデータがストリーミング形式で収集されるため、VLP モデルは受信データからの新しい知識を継続的に統合し、学習した知識を保持する必要があります。
この作業では、画像とテキストのペア データの連続したチャンクを使用して VLP モデルを学習することに焦点を当てています。
このマルチモーダルな継続的学習設定における壊滅的な忘却の問題に取り組むために、最初に疑似テキスト再生を導入します。これは、学習した知識をより適切に保存するだけでなく、学習した知識をより適切に保存するだけでなく、負のサンプルの多様性を向上させます。
対照的な損失。
さらに、古いモデルと新しいモデルの間でインスタンスごとの予測を調整するために、画像とテキストの間のマルチモーダル知識の蒸留を提案します。
概念キャプション データセットのインスタンスとクラスの増分分割の両方でモデルを段階的に事前トレーニングし、ゼロ ショット画像分類と画像テキスト検索タスクでモデルを評価します。
私たちの方法は、既存のベースラインよりも一貫して大きなマージンで優れており、その優位性を示しています。
特に、クラス増分分割の画像分類ダウンストリーム データセットで平均 $4.60\%$ のパフォーマンス向上を実現しています。

要約(オリジナル)

Vision-language pre-training (VLP) has attracted increasing attention recently. With a large amount of image-text pairs, VLP models trained with contrastive loss have achieved impressive performance in various tasks, especially the zero-shot generalization on downstream datasets. In practical applications, however, massive data are usually collected in a streaming fashion, requiring VLP models to continuously integrate novel knowledge from incoming data and retain learned knowledge. In this work, we focus on learning a VLP model with sequential chunks of image-text pair data. To tackle the catastrophic forgetting issue in this multi-modal continual learning setting, we first introduce pseudo text replay that generates hard negative texts conditioned on the training images in memory, which not only better preserves learned knowledge but also improves the diversity of negative samples in the contrastive loss. Moreover, we propose multi-modal knowledge distillation between images and texts to align the instance-wise prediction between old and new models. We incrementally pre-train our model on both the instance and class incremental splits of the Conceptual Caption dataset, and evaluate the model on zero-shot image classification and image-text retrieval tasks. Our method consistently outperforms the existing baselines with a large margin, which demonstrates its superiority. Notably, we realize an average performance boost of $4.60\%$ on image-classification downstream datasets for the class incremental split.

arxiv情報

著者 Shipeng Yan,Lanqing Hong,Hang Xu,Jianhua Han,Tinne Tuytelaars,Zhenguo Li,Xuming He
発行日 2022-10-31 13:42:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク