CiT: Curation in Training for Effective Vision-Language Data

要約

大規模な視覚言語モデルは一般に多くの下流タスクに適用可能であるが、大規模な機関にしか払えない法外な学習コストがかかる。本論文では、一般性と効率性をトレードオフにして、データの目的を学習に結びつけるシンプルで効率的なビジョンテキスト学習アルゴリズムであるCuration in Training (CiT)を紹介する。CiTは自動的に高品質なデータを生成し、コントラスト画像-テキスト学習を高速化する。また、オフラインのデータフィルタリングパイプラインの必要性を軽減し、幅広いデータソース(ウェブからの生の画像-テキストペアを含む)を可能にする。CiTには、学習データを管理する外側ループと、管理された学習データを消費する内側ループの2つのループがあります。テキストエンコーダーはこの2つのループをつなぐ。CiTは、クラス名などのタスクのメタデータと、大量の画像とテキストのペアを与えると、そのテキスト埋め込みとメタデータの埋め込みとの類似度を測定して、プールから関連する学習データを交互に選択する。CiTは、特に生データのサイズが大きい場合に、学習を一桁以上高速化できることが実験により確認されている。

要約(オリジナル)

Large vision-language models are generally applicable to many downstream tasks, but come at an exorbitant training cost that only large institutions can afford. This paper trades generality for efficiency and presents Curation in Training (CiT), a simple and efficient vision-text learning algorithm that couples a data objective into training. CiT automatically yields quality data to speed-up contrastive image-text training and alleviates the need for an offline data filtering pipeline, allowing broad data sources (including raw image-text pairs from the web). CiT contains two loops: an outer loop curating the training data and an inner loop consuming the curated training data. The text encoder connects the two loops. Given metadata for tasks of interest, e.g., class names, and a large pool of image-text pairs, CiT alternatively selects relevant training data from the pool by measuring the similarity of their text embeddings and embeddings of the metadata. In our experiments, we observe that CiT can speed up training by over an order of magnitude, especially if the raw data size is large.

arxiv情報

著者 Hu Xu,Saining Xie,Po-Yao Huang,Licheng Yu,Russell Howes,Gargi Ghosh,Luke Zettlemoyer,Christoph Feichtenhofer
発行日 2023-01-05 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク