Why Fine-grained Labels in Pretraining Benefit Generalization?

要約

最近の研究では、きめの細かいラベル付けされたデータを使用してディープ ニューラル ネットワークを事前トレーニングし、その後下流タスク用に粗いラベル付けされたデータを微調整すると、粗いラベル付けされたデータを使用して事前トレーニングするよりも優れた一般化が得られることが示されています。
これを裏付ける十分な経験的証拠がある一方で、理論的な正当性は未解決の問題のままです。
この論文では、入力データの分布を制限する「階層型マルチビュー」構造を導入することで、このギャップに対処しています。
このフレームワークの下で、我々は次のことを証明します: 1) 粗粒度の事前トレーニングでは、ニューラル ネットワークが共通の特徴を十分に学習することしかできませんが、2) 粒度の細かい事前トレーニングでは、ネットワークが一般的な特徴に加えてまれな特徴を学習するのに役立ち、結果の改善につながります。
下流のハードテストサンプルでの精度。

要約(オリジナル)

Recent studies show that pretraining a deep neural network with fine-grained labeled data, followed by fine-tuning on coarse-labeled data for downstream tasks, often yields better generalization than pretraining with coarse-labeled data. While there is ample empirical evidence supporting this, the theoretical justification remains an open problem. This paper addresses this gap by introducing a ‘hierarchical multi-view’ structure to confine the input data distribution. Under this framework, we prove that: 1) coarse-grained pretraining only allows a neural network to learn the common features well, while 2) fine-grained pretraining helps the network learn the rare features in addition to the common ones, leading to improved accuracy on hard downstream test samples.

arxiv情報

著者 Guan Zhe Hong,Yin Cui,Ariel Fuxman,Stanley Chan,Enming Luo
発行日 2024-12-10 17:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク