要約
大規模言語モデル (LLM) は、ゼロショットで、つまり特定の微調整を必要とせずに、自然言語の意図を与えられた正確なコード スニペットを生成する優れた機能を実証します。
これまでの研究では LLM を微調整する利点が強調されてきましたが、このプロセスには高い計算コストがかかるため、リソースが不足している環境、特に数十億のパラメータを持つモデルでは非現実的です。
これらの課題に対処するために、以前の研究では、タスク固有のプロンプト例を使用して LLM 生成プロセスをガイドする戦略として、インコンテキスト学習 (ICL) が検討されました。
ただし、ICL には、コンテキストに関連したプロンプトを設計する必要があることや、タスク固有のパラメーターを学習できないなどの不便さがあり、それによって下流のタスクのパフォーマンスが制限されます。
これに関連して、合理的なリソース消費を維持しながら、LLM をタスク固有のデータに効率的に特化させるための有望なアプローチとして、パラメーター効率の良い微調整 (PEFT) 技術が期待されています。
このペーパーでは、自動コード生成シナリオにおける LLM の PEFT テクニックの包括的な研究を提供します。
LLM 向けの PEFT 技術の包括的な調査により、多様な LLM セットにおける ICL に対する PEFT 技術の優位性と可能性が明らかになりました。
さらに、PEFT の拡張機能を実証し、パフォーマンスを損なうことなく 2 つの異なるデータセットから共同で学習する能力を示します。
さらに、私たちの研究は、PEFT と量子化を組み合わせることで、より大規模な LLM を調整し、メモリ使用量を大幅に削減できる可能性を強調しています。
したがって、この研究は、ソフトウェア エンジニアリング シナリオにおける PEFT のより広範な応用の機会を開きます。
私たちのコードは https://github.com/martin-wey/peft-llm-code/ で入手できます。
要約(オリジナル)
Large Language Models (LLMs) demonstrate impressive capabilities to generate accurate code snippets given natural language intents in zero-shot, i.e., without the need for specific fine-tuning. While prior studies have highlighted the advantages of fine-tuning LLMs, this process incurs high computational costs, making it impractical in resource-scarce environments, particularly for models with billions of parameters. To address these challenges, previous research explored In-Context Learning (ICL) as a strategy to guide the LLM generative process with task-specific prompt examples. However, ICL introduces inconveniences, such as the need for designing contextually relevant prompts and the absence of learning task-specific parameters, thereby limiting downstream task performance. In this context, we foresee Parameter-Efficient Fine-Tuning (PEFT) techniques as a promising approach to efficiently specialize LLMs to task-specific data while maintaining reasonable resource consumption. In this paper, we deliver a comprehensive study of PEFT techniques for LLMs under the automated code generation scenario. Our comprehensive investigation of PEFT techniques for LLMs reveals their superiority and potential over ICL across a diverse set of LLMs. Additionally, we demonstrate the extended capabilities of PEFT, showcasing its ability to learn from two distinct datasets jointly without compromising performance. Furthermore, our study highlights the potential for tuning larger LLMs and significant reductions in memory usage by combining PEFT with quantization. Therefore, this study opens opportunities for broader applications of PEFT in software engineering scenarios. Our code is available at https://github.com/martin-wey/peft-llm-code/.
arxiv情報
著者 | Martin Weyssow,Xin Zhou,Kisub Kim,David Lo,Houari Sahraoui |
発行日 | 2024-01-18 15:37:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google