Plateau in Monotonic Linear Interpolation — A ‘Biased’ View of Loss Landscape for Deep Networks

要約

単調線形補間 (MLI) – ランダムな初期化とそれが収束する最小化器を結ぶ線上で、損失と精度が単調である – は、ニューラル ネットワークのトレーニングで一般的に観察される現象です。
このような現象は、ニューラル ネットワークの最適化が容易であることを示唆しているように見えるかもしれません。
この論文では、MLI の特性が最適化問題の難易度に必ずしも関連していないこと、およびディープ ニューラル ネットワークの MLI に関する経験的観察はバイアスに大きく依存していることを示します。
特に、重みとバイアスの両方を線形に補間すると、最終的な出力に非常に異なる影響が生じることを示します。異なるクラスが深いネットワークで異なる最終層のバイアスを持つ場合、損失と精度の補間の両方に長いプラトーがあります。
(MLIの既存の理論は説明できません)。
また、単純なモデルを使用して、完全にバランスの取れたデータセットであっても、異なるクラスの最終層バイアスがどのように異なるかを示します。
経験的に、同様の直感が実際のネットワークと現実的なデータセットに保持されることを示しています。

要約(オリジナル)

Monotonic linear interpolation (MLI) – on the line connecting a random initialization with the minimizer it converges to, the loss and accuracy are monotonic – is a phenomenon that is commonly observed in the training of neural networks. Such a phenomenon may seem to suggest that optimization of neural networks is easy. In this paper, we show that the MLI property is not necessarily related to the hardness of optimization problems, and empirical observations on MLI for deep neural networks depend heavily on biases. In particular, we show that interpolating both weights and biases linearly leads to very different influences on the final output, and when different classes have different last-layer biases on a deep network, there will be a long plateau in both the loss and accuracy interpolation (which existing theory of MLI cannot explain). We also show how the last-layer biases for different classes can be different even on a perfectly balanced dataset using a simple model. Empirically we demonstrate that similar intuitions hold on practical networks and realistic datasets.

arxiv情報

著者 Xiang Wang,Annie N. Wang,Mo Zhou,Rong Ge
発行日 2023-02-14 18:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク