Function-Space Learning Rates

要約

パラメーターテンソルの更新に応じて、ニューラルネットワークの出力関数の変化の大きさを測定するレイヤーワイズ関数スペース学習レートを検討します。
これは、パラメーター空間の変化の大きさを説明する従来の学習率とは対照的です。
任意のニューラルネットワークで機能空間学習率を測定および設定する効率的な方法を開発し、トレーニング中または定期的に実行できるいくつかの追加の後方パスを介して最小限の計算オーバーヘッドのみを必要とします。
2つの重要なアプリケーションを示します。(1)パラメーター空間ではなく、関数空間での標準的なニューラルネットワークオプティマイザーのダイナミクスの分析、および(2)モデルスケール全体のハイパーパラメーター転送への新しいアプローチであるフレーム(関数空間学習速度マッチング)を導入する

FLERMを記録し、小規模で安価なベースモデルをトレーニングしながら機能空間学習レートを記録し、一貫した機能空間の更新を維持するために大きなモデルをトレーニングするときに、パラメーター空間のレイヤーワイズ学習レートを自動的に調整します。
フレームは、モデルの幅、深さ、初期化スケール、およびLORAランクを越えてハイパーパラメーターの転送を提供し、さまざまな接続を備えたMLPやさまざまな層正規化スキームを持つ変圧器を含むさまざまなアーキテクチャでランクを与えます。

要約(オリジナル)

We consider layerwise function-space learning rates, which measure the magnitude of the change in a neural network’s output function in response to an update to a parameter tensor. This contrasts with traditional learning rates, which describe the magnitude of changes in parameter space. We develop efficient methods to measure and set function-space learning rates in arbitrary neural networks, requiring only minimal computational overhead through a few additional backward passes that can be performed at the start of, or periodically during, training. We demonstrate two key applications: (1) analysing the dynamics of standard neural network optimisers in function space, rather than parameter space, and (2) introducing FLeRM (Function-space Learning Rate Matching), a novel approach to hyperparameter transfer across model scales. FLeRM records function-space learning rates while training a small, cheap base model, then automatically adjusts parameter-space layerwise learning rates when training larger models to maintain consistent function-space updates. FLeRM gives hyperparameter transfer across model width, depth, initialisation scale, and LoRA rank in various architectures including MLPs with residual connections and transformers with different layer normalisation schemes.

arxiv情報

著者 Edward Milsom,Ben Anson,Laurence Aitchison
発行日 2025-02-24 18:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク