要約
このホワイトペーパーでは、グラフスペクトル分析で強化された大規模な言語モデルのパラメーターコラボレーション最適化アルゴリズムを提案します。
目標は、トレーニング中の微調整効率と構造認識の両方を改善することです。
提案された方法では、事前に訓練された言語モデルのパラメーターは、グラフ内のノードとして扱われます。
加重グラフが構築され、ラプラシアンスペクトル分解が適用され、周波数ドメインモデリングとパラメーター空間の構造表現が可能になります。
この構造に基づいて、共同損失関数が設計されています。
タスクの損失をスペクトル正規化用語と組み合わせて、パラメーター間の共同更新を容易にします。
さらに、最適化段階でスペクトルフィルタリングメカニズムが導入されます。
このメカニズムは、勾配を構造認識的に調整し、モデルのトレーニング安定性と収束動作を強化します。
この方法は、従来の微調整比較、少数のショット一般化テスト、収束速度分析など、複数のタスクで評価されます。
すべての設定で、提案されたアプローチは優れたパフォーマンスを示しています。
実験結果は、スペクトル共同最適化フレームワークがパラメーターの摂動を効果的に削減し、全体的なモデルパフォーマンスを維持しながら微調整品質を向上させることを確認します。
この作業は、大規模モデルのパラメーター効率の高いトレーニング方法論を進め、深い学習最適化における構造信号処理の重要性を強化し、言語モデルの適応性とパフォーマンスを強化するための堅牢で一般化可能なフレームワークを提供することにより、人工知能の分野に大きく貢献します。
要約(オリジナル)
This paper proposes a parameter collaborative optimization algorithm for large language models, enhanced with graph spectral analysis. The goal is to improve both fine-tuning efficiency and structural awareness during training. In the proposed method, the parameters of a pre-trained language model are treated as nodes in a graph. A weighted graph is constructed, and Laplacian spectral decomposition is applied to enable frequency-domain modeling and structural representation of the parameter space. Based on this structure, a joint loss function is designed. It combines the task loss with a spectral regularization term to facilitate collaborative updates among parameters. In addition, a spectral filtering mechanism is introduced during the optimization phase. This mechanism adjusts gradients in a structure-aware manner, enhancing the model’s training stability and convergence behavior. The method is evaluated on multiple tasks, including traditional fine-tuning comparisons, few-shot generalization tests, and convergence speed analysis. In all settings, the proposed approach demonstrates superior performance. The experimental results confirm that the spectral collaborative optimization framework effectively reduces parameter perturbations and improves fine-tuning quality while preserving overall model performance. This work contributes significantly to the field of artificial intelligence by advancing parameter-efficient training methodologies for large-scale models, reinforcing the importance of structural signal processing in deep learning optimization, and offering a robust, generalizable framework for enhancing language model adaptability and performance.
arxiv情報
著者 | Hanlu Zhang,Yumeng Ma,Shuo Wang,Guiran Liu,Binrong Zhu |
発行日 | 2025-04-28 08:42:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google