要約
モデルの学習や微調整の際にエキスパートをマージする既存の手法は、主に平坦なパラメータ空間を仮定するユークリッド幾何学に依存している。この仮定は、モデルの汎化能力を制限する可能性があり、特に、パラメータ多様体がより複雑な曲率を示す可能性のある事前学習段階では、その可能性がある。曲率を考慮したマージ手法は、通常、フィッシャー情報行列を近似するための追加情報と計算資源を必要とし、メモリオーバーヘッドを追加する。本論文では、CAMEx(Curvature-Aware Merging of Experts)を紹介する。CAMExは、パラメータ多様体の非ユークリッド曲率を考慮するために、自然勾配を組み込んだ新しいエキスパートマージプロトコルである。自然勾配を活用することで、CAMExはパラメータ空間の構造により効果的に適応し、モデルの更新と多様体の形状との間の整合を改善する。このアプローチにより、事前学習と微調整の両方が強化され、曲率を考慮した手法にありがちな大幅なメモリオーバーヘッドを伴わずに、より優れた最適化軌道と改善された汎化が得られる。(1)CAMExは、様々な自然言語処理タスクにおいて、従来のユークリッドベースのエキスパートマージ技術を大幅に凌駕し、事前学習と微調整のパフォーマンスを向上させる。(2)リソースの利用を最適化する動的マージアーキテクチャを導入し、計算コストを削減しながら高いパフォーマンスを達成し、大規模言語モデルの効率的なスケーリングを促進する。コードはhttps://github.com/kpup1710/CAMEx。
要約(オリジナル)
Existing methods for merging experts during model training and fine-tuning predominantly rely on Euclidean geometry, which assumes a flat parameter space. This assumption can limit the model’s generalization ability, especially during the pre-training phase, where the parameter manifold might exhibit more complex curvature. Curvature-aware merging methods typically require additional information and computational resources to approximate the Fisher Information Matrix, adding memory overhead. In this paper, we introduce CAMEx (Curvature-Aware Merging of Experts), a novel expert merging protocol that incorporates natural gradients to account for the non-Euclidean curvature of the parameter manifold. By leveraging natural gradients, CAMEx adapts more effectively to the structure of the parameter space, improving alignment between model updates and the manifold’s geometry. This approach enhances both pre-training and fine-tuning, resulting in better optimization trajectories and improved generalization without the substantial memory overhead typically associated with curvature-aware methods. Our contributions are threefold: (1) CAMEx significantly outperforms traditional Euclidean-based expert merging techniques across various natural language processing tasks, leading to enhanced performance during pre-training and fine-tuning; (2) we introduce a dynamic merging architecture that optimizes resource utilization, achieving high performance while reducing computational costs, facilitating efficient scaling of large language models; and (3) we provide both theoretical and empirical evidence to demonstrate the efficiency of our proposed method. The code is publicly available at: https://github.com/kpup1710/CAMEx.
arxiv情報
著者 | Dung V. Nguyen,Minh H. Nguyen,Luc Q. Nguyen,Rachel S. Y. Teo,Tan M. Nguyen,Linh Duy Tran |
発行日 | 2025-03-03 16:12:50+00:00 |
arxivサイト | arxiv_id(pdf) |