Continual Vision-Language Representation Learning with Off-Diagonal Information

要約

CLIP のような大規模なマルチモーダル対比学習フレームワークでは、通常、トレーニング用に大量の画像テキスト サンプルが必要になります。
ただし、これらのサンプルは実際のシナリオでは常に継続的に収集されます。
この論文では、ストリーミング データを使用した継続的な CLIP トレーニングの実現可能性について説明します。
壊滅的な忘却に対して経験的に堅牢である純粋な画像の自己教師あり学習方法に基づく継続学習とは異なり、継続設定における CLIP のパフォーマンス低下は重大かつ無視できません。
継続的な CLIP トレーニング中のモデルの表現空間の変化を空間幾何学の観点から分析することで、これらの空間変動を空間障害 (SD) として調査し、要約します。空間障害 (SD) は、モーダル内回転とモーダル間偏差に分けることができます。
さらに、クロスモーダル検索タスクにおいて SD が CLIP のパフォーマンス低下にどのようにつながるかを経験的および理論的に実証します。
SDを軽減するために、我々は新しい継続的視覚言語表現学習フレームワークMod-X: Maintain off-diagonal information-matriXを提案する。
Mod-X は、コントラスト行列の非対角情報分布を選択的に調整することで、新しいトレーニング データ ドメインを継続的にフィッティングする際に、古いデータ ドメインでのマルチモーダル表現空間のアライメントを維持することで、マルチモーダル モデルの機能を向上させます。
さまざまな規模と範囲で一般的に使用されるデータセットでの実験により、私たちの方法の有効性が実証されました。

要約(オリジナル)

Large-scale multi-modal contrastive learning frameworks like CLIP typically require a large amount of image-text samples for training. However, these samples are always collected continuously in real scenarios. This paper discusses the feasibility of continual CLIP training using streaming data. Unlike continual learning based on self-supervised learning methods for pure images, which is empirically robust against catastrophic forgetting, CLIP’s performance degeneration in the continual setting is significant and non-neglectable. By analyzing the changes in the model’s representation space during continual CLIP training from a spatial geometry perspective, we explore and summarize these spatial variations as Spatial Disorder (SD), which can be divided into Intra-modal Rotation and Inter-modal Deviation. Moreover, we empirically and theoretically demonstrate how SD leads to a performance decline for CLIP on cross-modal retrieval tasks. To alleviate SD, we propose a new continual vision-language representation learning framework Mod-X: Maintain off-diagonal information-matriX. By selectively aligning the off-diagonal information distribution of contrastive matrices, the Mod-X improves the capability of the multi-modal model by maintaining the multi-modal representation space alignment on the old data domain during continuously fitting the new training data domain. Experiments on commonly used datasets with different scales and scopes have demonstrated the effectiveness of our method.

arxiv情報

著者 Zixuan Ni,Longhui Wei,Siliang Tang,Yueting Zhuang,Qi Tian
発行日 2023-06-01 16:22:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク