要約
目に見えないデータに対する機械学習モデルの一般化を強化するために、ドロップアウト、重み減衰 ($L_2$ 正則化)、ノイズ増大などの手法が一般的に使用されます。
正則化手法 (つまり、ドロップアウトと重み減衰) は過学習を防ぐためにモデル パラメーターを調整することを目的としていますが、データ拡張は入力トレーニング セットの多様性を高め、精度と校正誤差を改善するとされる手法です。
この論文では、転移学習シナリオで重みの状況がどのように変化するかを理解することを目的として、これらの各手法がニューラル ネットワークのパラメーター空間に及ぼす影響を調査します。
これを達成するために、ランダム行列理論を使用して、同じ下流タスクに対して、これらの手法を使用して異なるレベルのデータ多様性を使用して微調整された事前トレーニング済みモデルの固有値分布を分析します。
私たちは、多様なデータがドロップアウトと同様の方法で体重の状況に影響を与えることを観察しています。
さらに、一般的に使用されるデータ拡張手法と生成モデルによって作成された合成データを比較します。
私たちは、合成データにより実際の入力データに多様性をもたらすことができ、その結果、配布外のテスト インスタンスでのパフォーマンスが向上すると結論付けています。
要約(オリジナル)
To enhance the generalization of machine learning models to unseen data, techniques such as dropout, weight decay ($L_2$ regularization), and noise augmentation are commonly employed. While regularization methods (i.e., dropout and weight decay) are geared toward adjusting model parameters to prevent overfitting, data augmentation increases the diversity of the input training set, a method purported to improve accuracy and calibration error. In this paper, we investigate the impact of each of these techniques on the parameter space of neural networks, with the goal of understanding how they alter the weight landscape in transfer learning scenarios. To accomplish this, we employ Random Matrix Theory to analyze the eigenvalue distributions of pre-trained models, fine-tuned using these techniques but using different levels of data diversity, for the same downstream tasks. We observe that diverse data influences the weight landscape in a similar fashion as dropout. Additionally, we compare commonly used data augmentation methods with synthetic data created by generative models. We conclude that synthetic data can bring more diversity into real input data, resulting in a better performance on out-of-distribution test instances.
arxiv情報
著者 | Yang Ba,Michelle V. Mancenido,Rong Pan |
発行日 | 2024-10-18 16:57:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google