要約
大規模な言語モデル(LLMS)は、自然言語処理タスク全体で強力なパフォーマンスを示しますが、量子化、剪定、またはデコード戦略調整を通じて展開のために変更された場合、大きなパフォーマンス劣化を受けます。
この現象をモデル出血として定義します – パラメーターの変化と建築の変化によって引き起こされるパフォーマンスの低下。
さまざまなLLMフレームワークの体系的な分析を通じて、主要な脆弱性パターンを特定します。レイヤー拡張は注意メカニズムを頻繁に破壊し、圧縮技術は情報損失カスケードを誘発し、調整を解読し、予測の発散を増幅します。
私たちの調査により、変圧器のアーキテクチャは、修正タイプ全体の出血の重症度を決定する固有の堅牢性しきい値を示すことが明らかになりました。
3つの緩和戦略を提案します。グラジエントアウェアプルーニングは重要な重量経路を保存し、動的量子化スケーリングは活性化の完全性を維持し、キャリブレーションをデコード生成軌跡を元のモデル分布に整列させます。
この作業は、適応中にモデルの安定性を評価するための基礎メトリックを確立し、効率的なLLM展開を可能にしながらパフォーマンスを維持するための実用的なガイドラインを提供します。
私たちの調査結果は、特に大規模な言語モデルの建築変換の下でのニューラルネットワークの回復力の理解を促進します。
要約(オリジナル)
Large language models (LLMs) demonstrate strong performance across natural language processing tasks, yet undergo significant performance degradation when modified for deployment through quantization, pruning, or decoding strategy adjustments. We define this phenomenon as model hemorrhage – performance decline caused by parameter alterations and architectural changes. Through systematic analysis of various LLM frameworks, we identify key vulnerability patterns: layer expansion frequently disrupts attention mechanisms, compression techniques induce information loss cascades, and decoding adjustments amplify prediction divergences. Our investigation reveals transformer architectures exhibit inherent robustness thresholds that determine hemorrhage severity across modification types. We propose three mitigation strategies: gradient-aware pruning preserves critical weight pathways, dynamic quantization scaling maintains activation integrity, and decoding calibration aligns generation trajectories with original model distributions. This work establishes foundational metrics for evaluating model stability during adaptation, providing practical guidelines for maintaining performance while enabling efficient LLM deployment. Our findings advance understanding of neural network resilience under architectural transformations, particularly for large-scale language models.
arxiv情報
著者 | Ziyang Ma,Zuchao Li,Lefei Zhang,Gui-Song Xia,Bo Du,Liangpei Zhang,Dacheng Tao |
発行日 | 2025-03-31 10:16:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google