要約
Vision-Language Pretraining (VLP) は、大規模なデータセットでのオフライン トレーニングにより、さまざまな下流タスクで優れた結果を示しました。
実世界のデータの増大する性質に関しては、モデルには知識を絶えず蓄積する継続的な学習能力が欠けているため、増大し続けるデータに対するこのようなオフライン トレーニング パラダイムは持続不可能です。
ただし、ほとんどの継続的な学習研究は単峰性分類に限定されており、既存の多峰性データセットは継続的な非定常データ ストリーム シナリオをシミュレートできません。
視覚言語継続的事前トレーニング (VLCP) の研究をサポートするために、私たちはまず、9 つの業界からの 100 万以上の製品画像とテキストのペアを含む包括的で統一されたベンチマーク データセット P9D を提供します。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、現実世界のロングテールの性質に準拠して、Web データの事前トレーニングをシミュレートします。
私たちは、VLCP の特性と課題を包括的に研究し、CTP と呼ばれる、トポロジー保存との互換性のある運動量のコントラストという新しいアルゴリズムを提案します。
互換性のある運動量モデルは、現在および前のタスク モデルの知識を吸収して、モーダル機能を柔軟に更新します。
さらに、トポロジ保持は、機能調整の柔軟性を維持しながら、タスク間で埋め込みの知識を転送します。
実験結果は、私たちの方法が他のベースラインと比較して優れたパフォーマンスを達成するだけでなく、高価なトレーニング負担をもたらさないことを示しています。
データセットとコードは https://github.com/KevinLight831/CTP で入手できます。
要約(オリジナル)
Vision-Language Pretraining (VLP) has shown impressive results on diverse downstream tasks by offline training on large-scale datasets. Regarding the growing nature of real-world data, such an offline training paradigm on ever-expanding data is unsustainable, because models lack the continual learning ability to accumulate knowledge constantly. However, most continual learning studies are limited to uni-modal classification and existing multi-modal datasets cannot simulate continual non-stationary data stream scenarios. To support the study of Vision-Language Continual Pretraining (VLCP), we first contribute a comprehensive and unified benchmark dataset P9D which contains over one million product image-text pairs from 9 industries. The data from each industry as an independent task supports continual learning and conforms to the real-world long-tail nature to simulate pretraining on web data. We comprehensively study the characteristics and challenges of VLCP, and propose a new algorithm: Compatible momentum contrast with Topology Preservation, dubbed CTP. The compatible momentum model absorbs the knowledge of the current and previous-task models to flexibly update the modal feature. Moreover, Topology Preservation transfers the knowledge of embedding across tasks while preserving the flexibility of feature adjustment. The experimental results demonstrate our method not only achieves superior performance compared with other baselines but also does not bring an expensive training burden. Dataset and codes are available at https://github.com/KevinLight831/CTP.
arxiv情報
著者 | Hongguang Zhu,Yunchao Wei,Xiaodan Liang,Chunjie Zhang,Yao Zhao |
発行日 | 2023-08-14 13:53:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google