Saddle-to-Saddle Dynamics in Diagonal Linear Networks

要約

この論文では、消失初期化の極限における対角線形ネットワーク上の勾配流の軌跡を完全に説明します。
最小の $\ell_1$-norm 解に到達するまで、制限フローがトレーニング損失のサドルから別のサドルに連続的にジャンプすることを示します。
このサドル間のダイナミクスは、各サドルがアクティブ セットに制約された損失の最小化に対応し、その外側の座標がゼロでなければならないため、増分学習プロセスに変換されます。
Lasso パスの計算に使用される LARS アルゴリズムを彷彿とさせる再帰的アルゴリズムを通じて、訪問したサドルとジャンプ時間の特徴を明示的に示します。
私たちの証明では、ジャンプ間のヘテロクリニック遷移を追跡できる便利な弧長時間再パラメータ化を利用しています。
私たちの分析では、データに関する無視できる仮定が必要で、パラメータ設定が過小設定と過大設定の両方に適用され、アクティブな座標の数が単調性ではない複雑なケースもカバーされます。
私たちの発見を裏付けるために数値実験を提供します。

要約(オリジナル)

In this paper we fully describe the trajectory of gradient flow over diagonal linear networks in the limit of vanishing initialisation. We show that the limiting flow successively jumps from a saddle of the training loss to another until reaching the minimum $\ell_1$-norm solution. This saddle-to-saddle dynamics translates to an incremental learning process as each saddle corresponds to the minimiser of the loss constrained to an active set outside of which the coordinates must be zero. We explicitly characterise the visited saddles as well as the jumping times through a recursive algorithm reminiscent of the LARS algorithm used for computing the Lasso path. Our proof leverages a convenient arc-length time-reparametrisation which enables to keep track of the heteroclinic transitions between the jumps. Our analysis requires negligible assumptions on the data, applies to both under and overparametrised settings and covers complex cases where there is no monotonicity of the number of active coordinates. We provide numerical experiments to support our findings.

arxiv情報

著者 Scott Pesme,Nicolas Flammarion
発行日 2023-10-25 16:02:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク