要約
オンラインデータ選択ポリシーを使用して大規模な事前トレーニングを加速する方法を提案します。
モデルベースのデータ選択により、均一なサンプリングでトレーニングされたモデルのパフォーマンスに到達するために必要な総計算量を削減できることを初めて実証しました。
この「コンピューティング ポジティブ」体制を可能にする重要な洞察は、小さなモデルがはるかに大きなモデルの損失に対する優れた代替手段を提供し、データのスコアリングに費やされる計算を大幅に削減できるにもかかわらず、学習者のトレーニングを大幅に加速できるということです。
また、データ選択ポリシーはデータセットとタスク全体にわたって強力に一般化されており、既製のモデルとトレーニング シーケンスを再利用することでデータ スコアリングのオーバーヘッドをさらに償却する道が開かれます。
私たちのメソッドである ClassAct と ActiveCLIP では、JFT で視覚的分類子をトレーニングする場合、ALIGN でマルチモーダル モデルをトレーニングする場合、必要なトレーニングの更新がそれぞれ 46% と 51% 減り、総計算量が最大 25% 減ります。
最後に、私たちのパラダイムは大規模な画像テキスト データセットのキュレーションにシームレスに適用され、いくつかのマルチモーダル転送タスクと事前トレーニング体制における新しい最先端技術を生み出します。
要約(オリジナル)
We propose a method for accelerating large-scale pre-training with online data selection policies. For the first time, we demonstrate that model-based data selection can reduce the total computation needed to reach the performance of models trained with uniform sampling. The key insight which enables this ‘compute-positive’ regime is that small models provide good proxies for the loss of much larger models, such that computation spent on scoring data can be drastically scaled down but still significantly accelerate training of the learner.. These data selection policies also strongly generalize across datasets and tasks, opening an avenue for further amortizing the overhead of data scoring by re-using off-the-shelf models and training sequences. Our methods, ClassAct and ActiveCLIP, require 46% and 51% fewer training updates and up to 25% less total computation when training visual classifiers on JFT and multimodal models on ALIGN, respectively. Finally, our paradigm seamlessly applies to the curation of large-scale image-text datasets, yielding a new state-of-the-art in several multimodal transfer tasks and pre-training regimes.
arxiv情報
著者 | Talfan Evans,Shreya Pathak,Hamza Merzic,Jonathan Schwarz,Ryutaro Tanno,Olivier J. Henaff |
発行日 | 2023-12-12 15:37:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google