要約
大規模な言語モデルは、言語の理解と生成において優れた熟練度を示しています。
それにもかかわらず、これらのモデルをゼロからトレーニングするには、最も複雑でない 10 億パラメータのバリアントであっても、大量の計算リソースが必要となり、多くの組織にとって経済的に非現実的になります。
この論文では、汎用タスク ソルバーとして機能する大規模な言語モデルを使用して、そのタスク固有の微調整について調査します。
タスク固有のデータセットとプロンプトを使用して、50 億と 40 億のパラメーターを持つ 2 つのプルーニングされた LLaMA モデルを微調整します。
このプロセスでは、事前にトレーニングされた重みが利用され、LoRA メソッドを使用して重みのサブセットに焦点が当てられます。
LLaMA モデルを微調整する際の 1 つの課題は、特定のタスクに合わせた正確なプロンプトを作成することです。
これに対処するために、タスクの特異性と即時効果という 2 つの主要な制約の下で LLaMA モデルを微調整する新しいアプローチを提案します。
私たちのアプローチである Tailored LLaMA では、最初に構造枝刈りを使用して、モデル サイズを 7B から 5B および 4B パラメーターに削減します。
その後、タスクに固有の慎重に設計されたプロンプトを適用し、LoRA メソッドを利用して微調整プロセスを加速します。
さらに、50\% で枝刈りされたモデルを 1 時間未満で微調整すると、分類タスクの平均精度が 20\% の圧縮率で 95.68\%、50\% の圧縮率で 86.54\% に回復します。
50ショットでショット学習。
これら 2 つのプルーニングされたバリアントに対する Tailored LLaMA の検証では、モデルが 50\% に圧縮された場合でも、数ショットの分類および生成タスクでベースライン モデルの 65\% 以上の精度を維持することが実証されました。
これらの調査結果は、大幅に削減されたモデル サイズで高いパフォーマンスを維持する上での、カスタマイズされたアプローチの有効性を強調しています。
要約(オリジナル)
Large language models demonstrate impressive proficiency in language understanding and generation. Nonetheless, training these models from scratch, even the least complex billion-parameter variant demands significant computational resources rendering it economically impractical for many organizations. With large language models functioning as general-purpose task solvers, this paper investigates their task-specific fine-tuning. We employ task-specific datasets and prompts to fine-tune two pruned LLaMA models having 5 billion and 4 billion parameters. This process utilizes the pre-trained weights and focuses on a subset of weights using the LoRA method. One challenge in fine-tuning the LLaMA model is crafting a precise prompt tailored to the specific task. To address this, we propose a novel approach to fine-tune the LLaMA model under two primary constraints: task specificity and prompt effectiveness. Our approach, Tailored LLaMA initially employs structural pruning to reduce the model sizes from 7B to 5B and 4B parameters. Subsequently, it applies a carefully designed prompt specific to the task and utilizes the LoRA method to accelerate the fine-tuning process. Moreover, fine-tuning a model pruned by 50\% for less than one hour restores the mean accuracy of classification tasks to 95.68\% at a 20\% compression ratio and to 86.54\% at a 50\% compression ratio through few-shot learning with 50 shots. Our validation of Tailored LLaMA on these two pruned variants demonstrates that even when compressed to 50\%, the models maintain over 65\% of the baseline model accuracy in few-shot classification and generation tasks. These findings highlight the efficacy of our tailored approach in maintaining high performance with significantly reduced model sizes.
arxiv情報
著者 | Danyal Aftab,Steven Davy |
発行日 | 2025-01-09 17:29:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google