Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding

要約

べき乗則スケーリングは、均一なサンプリングによる大規模なトレーニングが法外に遅いことを示しています。
アクティブ ラーニング手法は、最も関連性の高い例の学習を優先することでデータ効率を高めることを目的としています。
これらの手法は、その魅力にもかかわらず、a) モデルとタスク全体で一般化する、b) 大規模なデータセットに拡張する、c) データ選択のオーバーヘッドを考慮した場合に全体的な FLOP の節約をもたらすアルゴリズムが示されていないため、まだ広く採用されていません。
この研究では、これら 3 つの特性を満たす方法を提案します。小規模で安価なプロキシ モデルを利用して、データポイントの「学習性」スコアを推定します。このスコアは、はるかに大規模なモデルのトレーニング用にデータの優先順位を付けるために使用されます。
その結果、JFT で均一にトレーニングされた視覚分類器や ALIGN のマルチモーダル モデルと同じパフォーマンスを達成するために、当社のモデルで必要なトレーニングの更新は 46% および 51% 減少し、総計算量は最大 25% 削減されます。
最後に、私たちのデータ優先順位付けスキームは最近のデータキュレーションと学習目標を補完しており、いくつかのマルチモーダル転送タスクにおいて新しい最先端を生み出していることがわかりました。

要約(オリジナル)

Power-law scaling indicates that large-scale training with uniform sampling is prohibitively slow. Active learning methods aim to increase data efficiency by prioritizing learning on the most relevant examples. Despite their appeal, these methods have yet to be widely adopted since no one algorithm has been shown to a) generalize across models and tasks b) scale to large datasets and c) yield overall FLOP savings when accounting for the overhead of data selection. In this work we propose a method which satisfies these three properties, leveraging small, cheap proxy models to estimate ‘learnability’ scores for datapoints, which are used to prioritize data for the training of much larger models. As a result, our models require 46% and 51% fewer training updates and up to 25% less total computation to reach the same performance as uniformly trained visual classifiers on JFT and multimodal models on ALIGN. Finally, we find our data-prioritization scheme to be complementary with recent data-curation and learning objectives, yielding a new state-of-the-art in several multimodal transfer tasks.

arxiv情報

著者 Talfan Evans,Shreya Pathak,Hamza Merzic,Jonathan Schwarz,Ryutaro Tanno,Olivier J. Henaff
発行日 2024-02-14 18:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク