Vision-Language Dataset Distillation

要約

データセット蒸留手法は、大規模なデータセットを大幅に小さい (合成の可能性がある) トレーニング サンプルのセットに削減することを約束します。これにより、新しいモデルを最初からトレーニングするのに十分な情報が保持されます。
これまで、画像分類のためにデータセット蒸留法が開発されてきました。
しかし、ビジョン言語モデル (VLM) の機能が向上し、特にこれらのモデルのトレーニングに必要なデータセットの規模を考慮すると、データセットの抽出方法を画像分類を超えて拡張する時期が来ています。
この研究では、軌跡マッチングのアイデアを拡張して視覚言語データセットの蒸留方法を作成することで、この目標に向けた最初の一歩を踏み出します。
重要な課題は、ビジョン言語データセットには一連の離散クラスがないことです。
これを克服するために、私たちが提案する視覚言語データセット蒸留法は、画像とテキストのペアを対照的な定式化で一緒に蒸留します。
既存のベースラインがないため、ビジョン言語設定に適応する 3 つのコアセット選択方法 (トレーニング データセットの戦略的サブサンプリング) とアプローチを比較します。
我々は、困難な Flickr30K および COCO 検索ベンチマークで大幅な改善を示しました。たとえば、Flickr30K では、トレーニング用に 1000 個の画像とテキストのペアを選択する最良のコアセット選択方法では、画像とテキストの検索精度 (つまり、recall@1) がわずか 5.6% しか達成されません。
;
対照的に、私たちのデータセット蒸留アプローチでは、わずか 100 (1 桁少ない) トレーニング ペアで、そのほぼ 2 倍の 9.9% になります。

要約(オリジナル)

Dataset distillation methods promise to reduce large-scale datasets down to significantly smaller sets of (potentially synthetic) training examples, which preserve sufficient information for training a new model from scratch. So far, dataset distillation methods have been developed for image classification. However, with the rise in capabilities of vision-language models (VLMs), and especially given the scale of datasets necessary to train these models, the time is ripe to expand dataset distillation methods beyond image classification. In this work, we take the first steps towards this goal by expanding the idea of trajectory matching to create a distillation method for vision-language datasets. A key challenge is that vision-language datasets do not have a set of discrete classes. To overcome this, our proposed vision-language dataset distillation method jointly distills the image-text pairs in a contrastive formulation. Since there are no existing baselines, we compare our approach to three coreset selection methods (strategic subsampling of the training dataset), which we adapt to the vision-language setting. We demonstrate significant improvements on the challenging Flickr30K and COCO retrieval benchmarks: for example, on Flickr30K, the best coreset selection method selecting 1000 image-text pairs for training achieves only 5.6% image-to-text retrieval accuracy (i.e., recall@1); in contrast, our dataset distillation approach almost doubles that to 9.9% with just 100 (an order of magnitude fewer) training pairs.

arxiv情報

著者 Xindi Wu,Byron Zhang,Zhiwei Deng,Olga Russakovsky
発行日 2023-10-02 17:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク