要約
データのキュレーションは、大規模な事前トレーニングに不可欠な要素です。
この研究では、データのバッチを共同で選択する方が、例を個別に選択するよりも学習に効果的であることを実証します。
マルチモーダルな対比目標はデータ間の依存関係を明らかにするため、バッチの共同学習可能性を測定するための基準を自然に導き出します。
私たちは、そのようなバッチを選択するためのシンプルで扱いやすいアルゴリズムを導き出します。これにより、個別に優先順位が付けられたデータ ポイントを超えたトレーニングが大幅に加速されます。
より大きなスーパーバッチから選択することでパフォーマンスが向上するため、モデル近似における最近の進歩も活用して、関連する計算オーバーヘッドを削減します。
その結果、私たちのアプローチである共同例選択によるマルチモーダル対比学習 (JEST) は、反復回数が最大 13 倍、計算量が 10 倍少なく、最先端のモデルを上回ります。
JEST のパフォーマンスに不可欠なのは、事前トレーニングされた参照モデルを介して、データ選択プロセスをより小規模で適切にキュレーションされたデータセットの配布に向けて誘導し、データ キュレーションのレベルをニューラル スケーリング則の新しい次元として明らかにする機能です。
要約(オリジナル)
Data curation is an essential component of large-scale pretraining. In this work, we demonstrate that jointly selecting batches of data is more effective for learning than selecting examples independently. Multimodal contrastive objectives expose the dependencies between data and thus naturally yield criteria for measuring the joint learnability of a batch. We derive a simple and tractable algorithm for selecting such batches, which significantly accelerate training beyond individually-prioritized data points. As performance improves by selecting from larger super-batches, we also leverage recent advances in model approximation to reduce the associated computational overhead. As a result, our approach–multimodal contrastive learning with joint example selection (JEST)–surpasses state-of-the-art models with up to 13$\times$ fewer iterations and 10$\times$ less computation. Essential to the performance of JEST is the ability to steer the data selection process towards the distribution of smaller, well-curated datasets via pretrained reference models, exposing the level of data curation as a new dimension for neural scaling laws.
arxiv情報
著者 | Talfan Evans,Nikhil Parthasarathy,Hamza Merzic,Olivier J. Henaff |
発行日 | 2024-06-25 16:52:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google