要約
特定のタスクの最適なモデルを決定するには、多くの場合、複数のモデルをゼロからトレーニングする必要があります。これは、データセットとモデルサイズが成長するにつれて非現実的になります。
より効率的な代替案は、より小さな訓練を受けたモデルを拡張することですが、トレーニングのダイナミクスへの影響の理解が限られているため、このアプローチは十分に活用されていません。
この影響を定量化するための既存の方法には、計算コストを含む顕著な制限があります。
これに対処するために、直線的に接続された最小値のマニホールドを含むことが示されている損失の状況に基づいて新しい視点を紹介します。
具体的には、モデル拡張の影響を研究するためにこの多様体のサイズを推定するメトリックを提案します。
私たちの実験は、パフォーマンスの向上とマニホールドメトリックの間に強い相関関係を明らかにし、より情報に基づいたモデル比較を可能にし、信頼できるモデル拡張のための幾何学駆動型アプローチに向けた最初のステップを提供します。
特に、私たちのメトリックは、モデルに同等の数のパラメーターを持つ異なるタイプの拡張が適用された場合でも、他のベースラインよりも優れています。
要約(オリジナル)
Determining the optimal model for a given task often requires training multiple models from scratch, which becomes impractical as dataset and model sizes grow. A more efficient alternative is to expand smaller pre-trained models, but this approach is underutilized due to a limited understanding of its impact on the training dynamics. Existing methods for quantifying this impact have notable limitations, including computation cost. To address this, we introduce a new perspective based on the loss landscape, which has been shown to contain a manifold of linearly connected minima. Specifically, we propose a metric that estimates the size of this manifold to study the impact of model expansion. Our experiments reveal a strong correlation between performance gains and our manifold metric, enabling more informed model comparison and offering a first step toward a geometry-driven approach for reliable model expansion. Notably, our metric outperforms other baselines, even when different types of expansion with equivalent number of parameters are applied to a model.
arxiv情報
著者 | Pranshu Malviya,Jerry Huang,Aristide Baratin,Quentin Fournier,Sarath Chandar |
発行日 | 2025-06-16 16:39:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google