要約
大規模言語モデル (LLM) を微調整することは、下流タスクのパフォーマンスを向上させる効果的な方法です。
ただし、ハイパーパラメータ (HP) を調整するための適切な設定を選択するには、多大な労力と計算コストがかかるプロセスです。
ここでは、2 つの SOTA LLM と一般的に使用される 2 つのチューニング方法を検討する際に、実践者にとってより良い出発点となる実際のユースケース向けに推奨される HP 構成を提供します。
ここでは、オフラインの広範なグリッド検索に基づいて HP 構成をランク付けするプロセスであるカバレッジベース検索 (CBS) について説明します。これにより、上位にランクされた構成が集合的に、広範囲のデータセットおよびドメインに対して実用的で堅牢な推奨事項が提供されます。
私たちは Llama-3-8B と Mistral-7B、さらに完全な微調整と LoRa の実験に重点を置き、合計 10,000 件を超える調整実験を実施しています。
私たちの結果は、一般に、可能であれば Llama-3-8B と LoRA を優先すべきであることを示唆しています。
さらに、モデルとチューニング方法の両方について、分析で推奨されているように少数の HP 構成を検討するだけで、実際に優れた結果が得られることを示しており、この作業が実務者にとって貴重なリソースとなっています。
要約(オリジナル)
Fine-tuning Large Language Models (LLMs) is an effective method to enhance their performance on downstream tasks. However, choosing the appropriate setting of tuning hyperparameters (HPs) is a labor-intensive and computationally expensive process. Here, we provide recommended HP configurations for practical use-cases that represent a better starting point for practitioners, when considering two SOTA LLMs and two commonly used tuning methods. We describe Coverage-based Search (CBS), a process for ranking HP configurations based on an offline extensive grid search, such that the top ranked configurations collectively provide a practical robust recommendation for a wide range of datasets and domains. We focus our experiments on Llama-3-8B and Mistral-7B, as well as full fine-tuning and LoRa, conducting a total of > 10,000 tuning experiments. Our results suggest that, in general, Llama-3-8B and LoRA should be preferred, when possible. Moreover, we show that for both models and tuning methods, exploring only a few HP configurations, as recommended by our analysis, can provide excellent results in practice, making this work a valuable resource for practitioners.
arxiv情報
| 著者 | Alon Halfon,Shai Gretz,Ofir Arviv,Artem Spector,Orith Toledo-Ronen,Yoav Katz,Liat Ein-Dor,Michal Shmueli-Scheuer,Noam Slonim |
| 発行日 | 2024-08-07 07:46:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google