TiC-CLIP: Continual Training of CLIP Models

要約

大規模な基礎モデルを最新のデータに基づいて最新の状態に保つには、本質的にコストがかかります。
継続的な再トレーニングによる法外なコストを回避するには、これらのモデルを \emph{継続的に} トレーニングすることが不可欠です。
この問題は、大規模な継続学習ベンチマークやベースラインが欠如していることでさらに悪化します。
ビジョン言語モデルをトレーニングするための Web スケール Time-Continual (TiC) ベンチマークの最初のセット、TiC-DataComp、TiC-YFCC、および TiC-Redcaps を紹介します。
当社最大のデータセットである TiC-DataComp には、9 年間 (2014 ~ 2022 年) にわたる 1,270 億を超えるタイムスタンプ付きの画像とテキストのペアが含まれています。
まず、ベンチマークを使用してさまざまな \emph{動的} 評価を厳選し、既存のモデルの時間的ロバスト性を測定します。
OpenAI の CLIP (2020 年までのデータでトレーニング済み) は、OpenCLIP リポジトリで最近トレーニングされたモデルと比較して、2021 年から 2022 年にかけて厳選した検索タスクでゼロショット精度が $\約 8\%$ 低下していることを示します。
次に、時間連続データでモデルを効率的にトレーニングする方法を研究します。
最後のチェックポイントからトレーニングを継続し、古いデータを再生する単純なリハーサルベースのアプローチは、最初から再トレーニングする標準的な方法と比較して、コンピューティングを $2.5\times$ 削減することを示します。
コードは https://github.com/apple/ml-tic-clip で入手できます。

要約(オリジナル)

Keeping large foundation models up to date on latest data is inherently expensive. To avoid the prohibitive costs of constantly retraining, it is imperative to \emph{continually} train these models. This problem is exacerbated by the lack of any large scale continual learning benchmarks or baselines. We introduce the first set of web-scale Time-Continual (TiC) benchmarks for training vision-language models: TiC-DataComp, TiC-YFCC, and TiC-Redcaps. TiC-DataComp, our largest dataset, contains over 12.7B timestamped image-text pairs spanning 9 years (2014–2022). We first use our benchmarks to curate various \emph{dynamic} evaluations to measure temporal robustness of existing models. We show OpenAI’s CLIP (trained on data up to 2020) loses $\approx 8\%$ zero-shot accuracy on our curated retrieval task from 2021–2022 compared with more recently trained models in OpenCLIP repository. We then study how to efficiently train models on time-continuous data. We demonstrate that a simple rehearsal-based approach that continues training from the last checkpoint and replays old data reduces compute by $2.5\times$ when compared to the standard practice of retraining from scratch. Code is available at https://github.com/apple/ml-tic-clip.

arxiv情報

著者 Saurabh Garg,Mehrdad Farajtabar,Hadi Pouransari,Raviteja Vemulapalli,Sachin Mehta,Oncel Tuzel,Vaishaal Shankar,Fartash Faghri
発行日 2024-03-19 14:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク