要約
この論文では、広く使用されている大規模な視覚言語事前トレーニング (VLP) データセットにおける深刻な画像とテキストの位置ずれと高い冗長性の問題を検証します。
これらの問題に対処するために、TL;DR と呼ばれる効率的で簡単な視覚言語学習アルゴリズムを提案します。このアルゴリズムは、既存の大規模な VLP データを小さな高品質のセットに圧縮することを目的としています。
私たちのアプローチは 2 つの主要なステップで構成されます。
まず、代表的なサンプルを選択するために、コードブック ベースのエンコーダ/デコーダ キャプショナが開発されます。
次に、選択したサンプルの元のキャプションを補完する新しいキャプションが生成され、一意性を維持しながらテキストと画像の位置ずれの問題が軽減されます。
その結果、TL;DR により、大規模なデータセットを、代替の事前トレーニング データセットとして機能する高品質の小さなデータセットに縮小することができます。
このアルゴリズムにより、時間のかかる事前トレーニング プロセスが大幅に高速化されます。
具体的には、TL;DR は、主流の VLP データセットを高い比率で圧縮できます。たとえば、適切にクリーン化された CC3M データセットを 2.82M から 0.67M ($\sim$24\%) に、ノイズの多い YFCC15M を 15M から 2.5M ($\sim) に削減します。
$16.7\%)。
7 つのダウンストリーム タスクにわたる 3 つの人気のある VLP モデルを用いた広範な実験により、TL;DR によって提供された圧縮データセットでトレーニングされた VLP モデルは、フルスケールのデータセットでのトレーニングと比較して、同等またはそれ以上の結果を実行できることが示されました。
コードは \url{https://github.com/showlab/data-centric.vlp} で利用可能になります。
要約(オリジナル)
This paper examines the problems of severe image-text misalignment and high redundancy in the widely-used large-scale Vision-Language Pre-Training (VLP) datasets. To address these issues, we propose an efficient and straightforward Vision-Language learning algorithm called TL;DR, which aims to compress the existing large VLP data into a small, high-quality set. Our approach consists of two major steps. First, a codebook-based encoder-decoder captioner is developed to select representative samples. Second, a new caption is generated to complement the original captions for selected samples, mitigating the text-image misalignment problem while maintaining uniqueness. As the result, TL;DR enables us to reduce the large dataset into a small set of high-quality data, which can serve as an alternative pre-training dataset. This algorithm significantly speeds up the time-consuming pretraining process. Specifically, TL;DR can compress the mainstream VLP datasets at a high ratio, e.g., reduce well-cleaned CC3M dataset from 2.82M to 0.67M ($\sim$24\%) and noisy YFCC15M from 15M to 2.5M ($\sim$16.7\%). Extensive experiments with three popular VLP models over seven downstream tasks show that VLP model trained on the compressed dataset provided by TL;DR can perform similar or even better results compared with training on the full-scale dataset. The code will be made available at \url{https://github.com/showlab/data-centric.vlp}.
arxiv情報
著者 | Alex Jinpeng Wang,Kevin Qinghong Lin,David Junhao Zhang,Stan Weixian Lei,Mike Zheng Shou |
発行日 | 2023-06-01 02:44:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google