要約
重量マトリックスの固有種を介して深いニューラルネットワーク(DNNS)を診断することは、近年の活発な研究領域でした。
高レベルでは、DNNSの固有スペクトル分析には、重量マトリックスの経験的スペクトル密度(ESD)の重度の測定が含まれます。
モデルがどれだけうまく訓練されているかについての洞察を提供し、より良いレイヤーワイズトレーニングハイパーパラメーターの割り当てに関する決定を導くことができます。
このホワイトペーパーでは、このような固有スペクトル法に関連する課題に対処します。推定されたヘビーテールネスメトリックに対する重量マトリックスのアスペクト比の影響です。
さまざまなサイズ(およびアスペクト比)のマトリックスが、重張りのメトリックを推定する際に無視できないバイアスを導入し、モデルの診断と層ごとのハイパーパラメーターの割り当てにつながることを実証します。
この課題を克服するために、固定アスペクト比を持つサブマトリックをサブサンプリングすることにより重みマトリックスを正規化する方法である農場(固定アスペクト比マトリックスサブサンプリング)を提案します。
元のESDの重張りを測定する代わりに、これらのサブサンプリングされたサブミトリックの平均ESDを測定します。
固定アスペクト比を使用して、これらのサブマトリックの重張力を測定することで、アスペクト比バイアスを効果的に軽減できることを示します。
コンピュータービジョン(CV)モデルにおける画像分類、科学機械学習(SCIML)モデルトレーニング、大規模言語モデル(LLM)剪定など、重みの固有スペクトル分析を含む、さまざまな最適化技術とアプリケーションドメインにまたがるアプローチを検証します。
我々の結果は、その単純さにもかかわらず、農場は固有種分析の精度を均一に改善し、これらのアプリケーションドメインでより効果的な層ごとのハイパーパラメーターの割り当てを可能にすることを示しています。
LLM剪定実験の1つでは、農場は、最先端の方法と比較した場合、Llama-7Bモデルの困惑を17.3%減らします。
要約(オリジナル)
Diagnosing deep neural networks (DNNs) through the eigenspectrum of weight matrices has been an active area of research in recent years. At a high level, eigenspectrum analysis of DNNs involves measuring the heavytailness of the empirical spectral densities (ESD) of weight matrices. It provides insight into how well a model is trained and can guide decisions on assigning better layer-wise training hyperparameters. In this paper, we address a challenge associated with such eigenspectrum methods: the impact of the aspect ratio of weight matrices on estimated heavytailness metrics. We demonstrate that matrices of varying sizes (and aspect ratios) introduce a non-negligible bias in estimating heavytailness metrics, leading to inaccurate model diagnosis and layer-wise hyperparameter assignment. To overcome this challenge, we propose FARMS (Fixed-Aspect-Ratio Matrix Subsampling), a method that normalizes the weight matrices by subsampling submatrices with a fixed aspect ratio. Instead of measuring the heavytailness of the original ESD, we measure the average ESD of these subsampled submatrices. We show that measuring the heavytailness of these submatrices with the fixed aspect ratio can effectively mitigate the aspect ratio bias. We validate our approach across various optimization techniques and application domains that involve eigenspectrum analysis of weights, including image classification in computer vision (CV) models, scientific machine learning (SciML) model training, and large language model (LLM) pruning. Our results show that despite its simplicity, FARMS uniformly improves the accuracy of eigenspectrum analysis while enabling more effective layer-wise hyperparameter assignment in these application domains. In one of the LLM pruning experiments, FARMS reduces the perplexity of the LLaMA-7B model by 17.3% when compared with the state-of-the-art method.
arxiv情報
著者 | Yuanzhe Hu,Kinshuk Goel,Vlad Killiakov,Yaoqing Yang |
発行日 | 2025-06-06 17:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google