要約
大規模データセットを用いた視覚言語事前学習(VLP)は、様々な下流タスクにおいて優れた性能を示している。VLPでは、大規模な事前学習データセットと多様な下流タスクを含む完全かつ公平なベンチマークが不可欠である。英語コーパスを用いたベンチマークは数多く存在するが、中国語などの他言語を用いたVLPのベンチマーク構築は依然として重要な課題である。そこで、VLPのモデルを公平に比較するために、中国語の大規模なクロスモーダルベンチマーク「Zero」を構築しました。このベンチマークでは、2つの事前学習用データセットと5つの微調整用データセットを公開し、下流のタスクに対応します。また、クロスモーダル学習のための新しい事前学習フレームワークであるpre-Ranking + Rankingを提案する。具体的には、画像とテキストそれぞれの個別表現を学習するために、グローバルな対照的事前ランク付けを適用する。次に、画像-テキストクロスエンコーダとテキスト-画像クロスエンコーダを用いて、きめ細かなランキング方式で表現を融合させる。さらに、本モデルの能力を向上させるために、ターゲット誘導型蒸留と特徴量誘導型蒸留からなる双方向蒸留を提案する。簡潔さのため、本モデルをR2D2と呼ぶ。我々は、4つの公開クロスモーダルデータセットと提案する5つのダウンストリームデータセットにおいて、最先端の性能を達成することができた。Flickr30k-CN, COCO-CN, MUGEでゼロショットタスクを行った場合、2億5千万件のデータセットで事前学習したR2D2は、平均回収率で4.7%, 5.4%, 6.3%と、最先端技術と比較して有意な改善を達成した。データセット、モデル、コードは、https://github.com/yuxie11/R2D2 で公開されています。
要約(オリジナル)
Vision-language pre-training (VLP) on large-scale datasets has shown premier performance on various downstream tasks. A complete and fair benchmark (i.e., including large-scale pre-training datasets and diverse downstream tasks) is essential for VLP. While there are plenty of benchmarks with English corpus, building a rich benchmark for VLP with other languages, such as Chinese, remains a critical problem. To this end, we build a large-scale Chinese cross-modal benchmark called Zero for the research community to fairly compare VLP models. We release two pre-training datasets and five fine-tuning datasets for downstream tasks. Alongside, we propose a novel pre-training framework of pre-Ranking + Ranking for cross-modal learning. Specifically, we apply global contrastive pre-ranking to learn the individual representations of images and texts, respectively. We then fuse the representations in a fine-grained ranking manner via an image-text cross encoder and a text-image cross encoder. To further enhance the capability of the model, we propose a two-way distillation strategy consisting of target-guided Distillation and feature-guided Distillation. For brevity, we name our model R2D2. We achieve state-of-the-art performance on four public cross-modal datasets and the proposed five downstream datasets. When conducting zero-shot tasks on Flickr30k-CN, COCO-CN, and MUGE, R2D2 pre-trained on a 250 million dataset achieves significant improvements of 4.7%, 5.4%, and 6.3% in mean recall compared to the state-of-the-art. The datasets, models, and codes are available at https://github.com/yuxie11/R2D2
arxiv情報
著者 | Chunyu Xie,Heng Cai,Jianfei Song,Jincheng Li,Fanjing Kong,Xiaoyu Wu,Henrique Morimitsu,Lin Yao,Dexin Wang,Dawei Leng,Xiangyang Ji,Yafeng Deng |
発行日 | 2022-06-07 03:21:04+00:00 |
arxivサイト | arxiv_id(pdf) |