Transferring Learning Trajectories of Neural Networks

要約

ディープ ニューラル ネットワーク (DNN) のトレーニングには計算コストがかかり、特にモデル アンサンブルや知識の蒸留など、重複したトレーニングの実行を実行する場合に問題になります。
何らかのデータセットで 1 つの DNN をトレーニングすると、その学習軌跡 (つまり、トレーニング中の一連の中間パラメーター) が得られます。これには、データセットの学習に役立つ情報が含まれる可能性があります。
しかし、そのような学習軌跡の情報を別のトレーニングに利用するという試みはこれまでなかった。
この論文では、学習伝達問題と呼ばれる、与えられた学習軌跡を 1 つの初期パラメータから別の初期パラメータに「転送する」問題を定式化し、順列対称性を介して軌跡に沿って勾配を連続的にマッチングさせることによって、それを近似的に解く最初のアルゴリズムを導出します。
我々は、直接トレーニングを行う前に、転送されたパラメータが重要な精度を達成することを経験的に示しています。
また、特にモード接続性の観点から、転送されたパラメータの損失ランドスケープ特性を分析します。

要約(オリジナル)

Training deep neural networks (DNNs) is computationally expensive, which is problematic especially when performing duplicated training runs, such as model ensemble or knowledge distillation. Once we have trained one DNN on some dataset, we have its learning trajectory (i.e., a sequence of intermediate parameters during training) which may potentially contain useful information for learning the dataset. However, there has been no attempt to utilize such information of a given learning trajectory for another training. In this paper, we formulate the problem of ‘transferring’ a given learning trajectory from one initial parameter to another one, called learning transfer problem, and derive the first algorithm to approximately solve it by matching gradients successively along the trajectory via permutation symmetry. We empirically show that the transferred parameters achieve non-trivial accuracy before any direct training. Also, we analyze the loss landscape property of the transferred parameters, especially from a viewpoint of mode connectivity.

arxiv情報

著者 Daiki Chijiwa
発行日 2023-05-23 14:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク