Towards Understanding the Effect of Pretraining Label Granularity

要約

この論文では、事前学習ラベルの粒度が画像分類タスクにおけるディープ ニューラル ネットワークの一般化にどのような影響を与えるかを研究します。
ここでは、事前トレーニングのラベル空間がターゲット問題のラベル空間よりも粒度が細かい「細かいから粗い」転移学習設定に焦点を当てます。
ImageNet21k のリーフ ラベルでの事前トレーニングは、他の粗い粒度レベルでの事前トレーニングよりも、ImageNet1k でより良い転送結果を生成することを経験的に示しており、これはコミュニティで使用されている一般的な手法をサポートしています。
理論的には、特定の階層条件を満たすデータ分布の場合、1) 粗粒度の事前トレーニングでは、ニューラル ネットワークが「共通の」または「学習しやすい」特徴のみを学習できることを証明することで、粒度の細かい事前トレーニングの利点を説明します。
一方、2) きめの細かい事前トレーニングは、一般的な特徴に加えて「よりまれな」または「きめの細かい」特徴をネットワークが学習するのに役立ち、したがって、共通の特徴が欠落しているか強度が弱い下流のハードテストサンプルでの精度が向上します。

さらに、iNaturalist 2021 のラベル階層を使用して包括的な実験を実行し、ラベル粒度の適切な選択に加えて、次の条件により実際に転送が適切に機能することが確認されました。 1) 事前トレーニング データセットには意味のあるラベル階層が必要です。
、および 2) 事前トレーニング関数とターゲット ラベル関数は適切に調整される必要があります。

要約(オリジナル)

In this paper, we study how the granularity of pretraining labels affects the generalization of deep neural networks in image classification tasks. We focus on the ‘fine-to-coarse’ transfer learning setting, where the pretraining label space is more fine-grained than that of the target problem. Empirically, we show that pretraining on the leaf labels of ImageNet21k produces better transfer results on ImageNet1k than pretraining on other coarser granularity levels, which supports the common practice used in the community. Theoretically, we explain the benefit of fine-grained pretraining by proving that, for a data distribution satisfying certain hierarchy conditions, 1) coarse-grained pretraining only allows a neural network to learn the ‘common’ or ‘easy-to-learn’ features well, while 2) fine-grained pretraining helps the network learn the ‘rarer’ or ‘fine-grained’ features in addition to the common ones, thus improving its accuracy on hard downstream test samples in which common features are missing or weak in strength. Furthermore, we perform comprehensive experiments using the label hierarchies of iNaturalist 2021 and observe that the following conditions, in addition to proper choice of label granularity, enable the transfer to work well in practice: 1) the pretraining dataset needs to have a meaningful label hierarchy, and 2) the pretraining and target label functions need to align well.

arxiv情報

著者 Guan Zhe Hong,Yin Cui,Ariel Fuxman,Stanley H. Chan,Enming Luo
発行日 2023-10-05 17:32:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク