Early Period of Training Impacts Out-of-Distribution Generalization

要約

以前の研究では、ニューラル ネットワーク トレーニングの初期段階の違いが、分散内 (ID) タスクのパフォーマンスに大きな影響を与えることがわかっています。
ただし、ニューラル ネットワークは配布外 (OOD) データの影響を受けやすいことが多いため、下流のアプリケーションでは信頼性が低くなります。
しかし、初期のトレーニング期間が OOD の一般化に与える影響は、その複雑さと効果的な分析手法の欠如により、依然として研究が進んでいません。
この研究では、ニューラル ネットワーク トレーニングの初期における学習ダイナミクスと OOD 一般化の間の関係を調査します。
私たちは、調査の方法論として段階的なフリーズ解除 (つまり、トレーニング中にパラメータを段階的にフリーズ解除する) に焦点を当てて、フィッシャー情報のトレースとシャープネスを利用します。
一連の実証実験を通じて、1) トレーニング中のさまざまな時点でトレーニング可能なパラメーターの数を選択すること、つまり段階的な解凍によって実現することは、ID 結果にはわずかな影響を与えますが、OOD データへの一般化には大きく影響します。
2) トレーニングの初期段階でのフィッシャー情報の鮮明度とトレースの絶対値は OOD の一般化を示すものではありませんが、相対値は示す可能性があります。
3) フィッシャー情報のトレースと鮮明度は、OOD の一般化を改善するために、トレーニングの初期段階で介入を除去するための指標として使用できます。

要約(オリジナル)

Prior research has found that differences in the early period of neural network training significantly impact the performance of in-distribution (ID) tasks. However, neural networks are often sensitive to out-of-distribution (OOD) data, making them less reliable in downstream applications. Yet, the impact of the early training period on OOD generalization remains understudied due to its complexity and lack of effective analytical methodologies. In this work, we investigate the relationship between learning dynamics and OOD generalization during the early period of neural network training. We utilize the trace of Fisher Information and sharpness, with a focus on gradual unfreezing (i.e. progressively unfreezing parameters during training) as the methodology for investigation. Through a series of empirical experiments, we show that 1) selecting the number of trainable parameters at different times during training, i.e. realized by gradual unfreezing — has a minuscule impact on ID results, but greatly affects the generalization to OOD data; 2) the absolute values of sharpness and trace of Fisher Information at the initial period of training are not indicative for OOD generalization, but the relative values could be; 3) the trace of Fisher Information and sharpness may be used as indicators for the removal of interventions during early period of training for better OOD generalization.

arxiv情報

著者 Chen Cecilia Liu,Iryna Gurevych
発行日 2024-03-22 13:52:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク