要約
大規模言語モデル (LLM) は、さまざまな複雑なコード生成タスクで優れたパフォーマンスを発揮します。
ただし、その広範な採用は、大量の計算需要と高いリソース要件、特にメモリと処理能力によって制限されます。
このような要件を軽減するために、モデル プルーニング手法を使用して、パラメーターを大幅に減らしてよりコンパクトなモデルを作成します。
ただし、現在のアプローチは、プログラミング言語固有のサブモデルの効率的な抽出に焦点を当てていません。
この研究では、非構造化枝刈り (つまり、Wanda) を通じてコーディング固有のサブモデルを効率的に導出するというアイデアを検討します。
私たちは、3 つの異なるドメインにわたる枝刈り結果に対するさまざまなドメイン固有のキャリブレーション データセットの影響を調査し、分析を拡張して 4 つの言語固有のサブモデル (Python、Java、C++、JavaScript) を抽出します。
私たちは、適切なキャリブレーション データセットを使用して、プログラミング言語固有のサブモデルを効率的に抽出し、同時に許容可能な精度を維持した最初の企業です。
フルモデル。
また、ドメイン固有のタスクが LLM 内の異なる領域を活性化し、非構造化枝刈りによる特殊なサブモデルの作成をサポートするという分析的証拠を初めて提供しました。
私たちは、この取り組みがコンシューマーグレードのハードウェア上でのローカル実行を可能にする計算要件を削減し、リアルタイムの開発フィードバックに不可欠な推論時間の高速化をサポートすることにより、コーディングのための LLM アクセシビリティを強化する大きな可能性を秘めていると信じています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated their exceptional performance in various complex code generation tasks. However, their broader adoption is limited by significant computational demands and high resource requirements, particularly memory and processing power. To mitigate such requirements, model pruning techniques are used to create more compact models with significantly fewer parameters. However, current approaches do not focus on the efficient extraction of programming-language-specific sub-models. In this work, we explore the idea of efficiently deriving coding-specific sub-models through unstructured pruning (i.e., Wanda). We investigate the impact of different domain-specific calibration datasets on pruning outcomes across three distinct domains and extend our analysis to extracting four language-specific sub-models: Python, Java, C++, and JavaScript. We are the first to efficiently extract programming-language-specific sub-models using appropriate calibration datasets while maintaining acceptable accuracy w.r.t. full models. We are also the first to provide analytical evidence that domain-specific tasks activate distinct regions within LLMs, supporting the creation of specialized sub-models through unstructured pruning. We believe that this work has significant potential to enhance LLM accessibility for coding by reducing computational requirements to enable local execution on consumer-grade hardware, and supporting faster inference times critical for real-time development feedback.
arxiv情報
著者 | Laura Puccioni,Alireza Farshin,Mariano Scazzariello,Changjie Wang,Marco Chiesa,Dejan Kostic |
発行日 | 2025-01-09 14:00:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google