要約
視覚言語プリトレーニング(VLP)を用いたクロスモーダル画像テキスト検索(ITR)は、過去2年間に目覚しい発展を遂げてきたが、VLPモデルのサイズが増大し、実世界の検索シナリオへの展開が制限されるという大きな欠点がある(高遅延は許容されない場合)。この問題を解決するために、我々はITRタスクのための大規模なVLPモデルを圧縮する新しいプラグイン型動的対比蒸留法(DCD)フレームワークを発表します。技術的には、以下の2つの課題に直面する。1) 典型的なユニモーダルなメトリクス学習アプローチは、クロスモーダルな融合特徴を扱う際に、多すぎる負のサンプルを最適化するためにGPUメモリが制限されるため、クロスモーダルなタスクに直接適用することが困難である。2) 蒸留学習とスチューデントネットワーク最適化で異なる効果を持つ異なるハードサンプルからスチューデントネットワークを静的に最適化することは非効率的である。我々は、これらの課題を2つの点から克服することを試みる。第一に、マルチモーダルな対比学習を実現し、学習コストと効果のバランスをとるために、学生にとって難しいサンプルを教師ネットワークで推定し、学生には事前に訓練した教師から強力な知識を吸収させ、難しいサンプルから知識を習得させることを提案する。第二に、難しいサンプルの組から動的に学習するために、知識の難易度と学生の自己学習能力のバランスをより良くする観点から、異なる難易度のサンプルを動的に学習する動的蒸留を提案する。我々は、提案するDCD戦略を2つの最新鋭の視覚言語事前学習モデル、すなわちViLTとMETERに適用することに成功した。MS-COCOとFlickr30Kのベンチマークを用いた広範な実験により、我々のDCDフレームワークの有効性と効率性を示す。また、既存のITRモデルと比較して、推論を少なくとも129$¥times$高速化することができる。
要約(オリジナル)
Although the vision-and-language pretraining (VLP) equipped cross-modal image-text retrieval (ITR) has achieved remarkable progress in the past two years, it suffers from a major drawback: the ever-increasing size of VLP models restricts its deployment to real-world search scenarios (where the high latency is unacceptable). To alleviate this problem, we present a novel plug-in dynamic contrastive distillation (DCD) framework to compress the large VLP models for the ITR task. Technically, we face the following two challenges: 1) the typical uni-modal metric learning approach is difficult to directly apply to the cross-modal tasks, due to the limited GPU memory to optimize too many negative samples during handling cross-modal fusion features. 2) it is inefficient to static optimize the student network from different hard samples, which have different effects on distillation learning and student network optimization. We try to overcome these challenges from two points. First, to achieve multi-modal contrastive learning, and balance the training costs and effects, we propose to use a teacher network to estimate the difficult samples for students, making the students absorb the powerful knowledge from pre-trained teachers, and master the knowledge from hard samples. Second, to dynamic learn from hard sample pairs, we propose dynamic distillation to dynamically learn samples of different difficulties, from the perspective of better balancing the difficulty of knowledge and students’ self-learning ability. We successfully apply our proposed DCD strategy to two state-of-the-art vision-language pretrained models, i.e. ViLT and METER. Extensive experiments on MS-COCO and Flickr30K benchmarks show the effectiveness and efficiency of our DCD framework. Encouragingly, we can speed up the inference at least 129$\times$ compared to the existing ITR models.
arxiv情報
著者 | Jun Rao,Liang Ding,Shuhan Qi,Meng Fang,Yang Liu,Li Shen,Dacheng Tao |
発行日 | 2022-07-04 14:08:59+00:00 |
arxivサイト | arxiv_id(pdf) |