On the Trade-off of Intra-/Inter-class Diversity for Supervised Pre-training

要約

事前学習データセットは、最先端の機械学習モデルを構築するために不可欠であり、下流タスクへの影響に関する厳密な研究の動機付けとなっている。本研究では、教師あり事前学習データセットのクラス内多様性(クラスあたりのサンプル数)とクラス間多様性(クラス数)のトレードオフの影響を研究する。経験的に、事前学習データセットのサイズを固定した場合、クラス内/クラス間の多様性のバランスをとることで、下流の性能が最も良くなることを発見した。このメカニズムを理解するために、我々は理論的に、下流の性能は両方の多様性に単調に依存することを示す。特に、我々の理論は、最適なクラスとサンプルの比率(クラス数/クラスあたりのサンプル数)が、事前学習データセットのサイズに不変であることを明らかにし、最適な事前学習クラス数を予測するアプリケーションの動機付けとなる。ImageNetを事前学習データセットとして用いた場合、下流タスクにおいて約2ポイントの改善により、この応用の有効性を実証する。

要約(オリジナル)

Pre-training datasets are critical for building state-of-the-art machine learning models, motivating rigorous study on their impact on downstream tasks. In this work, we study the impact of the trade-off between the intra-class diversity (the number of samples per class) and the inter-class diversity (the number of classes) of a supervised pre-training dataset. Empirically, we found that with the size of the pre-training dataset fixed, the best downstream performance comes with a balance on the intra-/inter-class diversity. To understand the underlying mechanism, we show theoretically that the downstream performance depends monotonically on both types of diversity. Notably, our theory reveals that the optimal class-to-sample ratio (#classes / #samples per class) is invariant to the size of the pre-training dataset, which motivates an application of predicting the optimal number of pre-training classes. We demonstrate the effectiveness of this application by an improvement of around 2 points on the downstream tasks when using ImageNet as the pre-training dataset.

arxiv情報

著者 Jieyu Zhang,Bohan Wang,Zhengyu Hu,Pang Wei Koh,Alexander Ratner
発行日 2023-12-01 15:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク