Dynamical loss functions shape landscape topography and improve learning in artificial neural networks

要約

動的損失関数は、教師付き分類タスクで使用される標準損失関数から導出されますが、各クラスからの寄与が周期的に増減するように変更されます。
これらの振動は、全体的な最小値に影響を与えることなく、損失の状況を全体的に変化させます。
この論文では、クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示します。
まず、ニューラル ネットワークのサイズまたは学習率の増加が学習プロセスに及ぼす影響について説明します。
この直感に基づいて、動的損失関数のいくつかのバージョンを提案し、それらがさまざまなサイズのネットワークの検証精度を大幅に向上させる方法を示します。
最後に、これらの動的損失関数の状況がトレーニング中にどのように進化するかを調査し、不安定性エッジの最小化に関連する可能性のある不安定性の出現を強調します。

要約(オリジナル)

Dynamical loss functions are derived from standard loss functions used in supervised classification tasks, but they are modified such that the contribution from each class periodically increases and decreases. These oscillations globally alter the loss landscape without affecting the global minima. In this paper, we demonstrate how to transform cross-entropy and mean squared error into dynamical loss functions. We begin by discussing the impact of increasing the size of the neural network or the learning rate on the learning process. Building on this intuition, we propose several versions of dynamical loss functions and show how they significantly improve validation accuracy for networks of varying sizes. Finally, we explore how the landscape of these dynamical loss functions evolves during training, highlighting the emergence of instabilities that may be linked to edge-of-instability minimization.

arxiv情報

著者 Eduardo Lavin,Miguel Ruiz-Garcia
発行日 2024-10-14 16:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク