要約
大規模な言語モデル(LLM)は、会話型AIから検索やAIアシスタントまで、私たちの日常生活のさまざまな側面を強化する大きな可能性を示しています。
ただし、成長する機能は非常に大きなモデルサイズを犠牲にして提供され、メモリと計算上の制約のためにエッジデバイスへの展開が困難になります。
このペーパーでは、変圧器アーキテクチャのコアコンポーネントである注意マトリックスを近似するために直接最適化するLLM重量プルーニングへの新しいアプローチを紹介します。
線形近似に焦点を当てた既存の方法とは異なり、私たちのアプローチは、ソフトマックス注意メカニズムの非線形性を説明しています。
勾配降下ベースの最適化方法の収束の理論的保証を最適に近い剪定マスクソリューションに提供します。
私たちの経験的結果は、モデルのパフォーマンスを維持しながら、現在の最先端の方法、つまりSparsegptとWandaを大幅に削減しながら、モデルのパフォーマンスを維持する際の非線形剪定アプローチの有効性を示しています。
この作業は、LLMSにおける剪定アルゴリズム設計のための新しい理論的基盤を確立し、リソース制約のデバイスでより効率的なLLM推論への道を開く可能性があります。
要約(オリジナル)
Large Language Models (LLMs) have shown immense potential in enhancing various aspects of our daily lives, from conversational AI to search and AI assistants. However, their growing capabilities come at the cost of extremely large model sizes, making deployment on edge devices challenging due to memory and computational constraints. This paper introduces a novel approach to LLM weight pruning that directly optimizes for approximating the attention matrix, a core component of transformer architectures. Unlike existing methods that focus on linear approximations, our approach accounts for the non-linear nature of the Softmax attention mechanism. We provide theoretical guarantees for the convergence of our Gradient Descent-based optimization method to a near-optimal pruning mask solution. Our empirical results demonstrate the effectiveness of our non-linear pruning approach in maintaining model performance while significantly reducing computational costs, which is beyond the current state-of-the-art methods, i.e., SparseGPT and Wanda, by a large margin. This work establishes a new theoretical foundation for pruning algorithm design in LLMs, potentially paving the way for more efficient LLM inference on resource-constrained devices.
arxiv情報
著者 | Yingyu Liang,Jiangxuan Long,Zhenmei Shi,Zhao Song,Yufa Zhou |
発行日 | 2025-02-26 18:44:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google