要約
最近の研究では、きめの細かいラベル付けされたデータを使用してディープ ニューラル ネットワークを事前トレーニングし、その後下流タスク用に粗いラベル付けされたデータを微調整すると、粗いラベル付けされたデータを使用して事前トレーニングするよりも優れた一般化が得られることが示されています。
これを裏付ける十分な経験的証拠がある一方で、理論的な正当性は未解決の問題のままです。
この論文では、入力データの分布を制限する「階層型マルチビュー」構造を導入することで、このギャップに対処しています。
このフレームワークの下で、我々は次のことを証明します: 1) 粗粒度の事前トレーニングでは、ニューラル ネットワークが共通の特徴を十分に学習することしかできませんが、2) 粒度の細かい事前トレーニングでは、ネットワークが一般的な特徴に加えてまれな特徴を学習するのに役立ち、結果の改善につながります。
下流のハードテストサンプルでの精度。
要約(オリジナル)
Recent studies show that pretraining a deep neural network with fine-grained labeled data, followed by fine-tuning on coarse-labeled data for downstream tasks, often yields better generalization than pretraining with coarse-labeled data. While there is ample empirical evidence supporting this, the theoretical justification remains an open problem. This paper addresses this gap by introducing a ‘hierarchical multi-view’ structure to confine the input data distribution. Under this framework, we prove that: 1) coarse-grained pretraining only allows a neural network to learn the common features well, while 2) fine-grained pretraining helps the network learn the rare features in addition to the common ones, leading to improved accuracy on hard downstream test samples.
arxiv情報
著者 | Guan Zhe Hong,Yin Cui,Ariel Fuxman,Stanley Chan,Enming Luo |
発行日 | 2024-12-10 17:57:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google