要約
深い均一なニューラルネットワークにおける無限の学習率を持つ、最も急な降下アルゴリズムの一般的なファミリーの暗黙的なバイアスを研究します。
(a)ネットワークが完全なトレーニングの精度に達すると、アルゴリズム依存の幾何学的マージンが増加し始め、(b)トレーニング軌道の制限点は、対応するマージン最大化問題のKKTポイントに対応します。
さまざまな急な降下アルゴリズムで最適化されたニューラルネットワークの軌跡を実験的に拡大し、一般的な適応方法(Adam and Shampoo)の暗黙のバイアスとのつながりを強調します。
要約(オリジナル)
We study the implicit bias of the general family of steepest descent algorithms with infinitesimal learning rate in deep homogeneous neural networks. We show that: (a) an algorithm-dependent geometric margin starts increasing once the networks reach perfect training accuracy, and (b) any limit point of the training trajectory corresponds to a KKT point of the corresponding margin-maximization problem. We experimentally zoom into the trajectories of neural networks optimized with various steepest descent algorithms, highlighting connections to the implicit bias of popular adaptive methods (Adam and Shampoo).
arxiv情報
著者 | Nikolaos Tsilivis,Gal Vardi,Julia Kempe |
発行日 | 2025-04-02 15:56:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google