要約
GPT-4 や ChatGPT などの大規模言語モデル (LLM) の成功により、タスク固有のデータ (ChatDoctor など) を使用してオープンアクセス LLM を微調整することによって作成される、コスト効率が高くアクセスしやすい多数の代替モデルが開発されました。
指示データ (例: アルパカ)。
さまざまな微調整方法の中でも、アダプターベースのパラメーター効率の良い微調整 (PEFT) は、間違いなく最も魅力的なトピックの 1 つです。これは、LLM 全体ではなく、いくつかの外部パラメーターのみを微調整するだけで済み、同等または同等の結果を達成できるためです。
よりよい性能。
LLM の PEFT メソッドに関するさらなる研究を可能にするために、このホワイト ペーパーでは、さまざまなアダプターを LLM に統合し、さまざまなタスクに対してアダプター ベースの LLM の PEFT メソッドを実行できる使いやすいフレームワークである LLM アダプターを紹介します。
このフレームワークには、LLaMA、BLOOM、GPT-J などの最先端のオープンアクセス LLM に加え、シリーズ アダプター、並列アダプター、プロンプト ベースの学習、再パラメータ化ベースのメソッドなどの広く使用されているアダプターが含まれています。
さらに、アダプターベースの各メソッドの最適な設計に対するアダプターのタイプ、配置場所、ハイパーパラメーターの影響について広範な実証研究を実施しています。
算術推論と常識推論という 2 つの異なる推論タスクから、14 のデータセットに対するアダプターの有効性を評価します。
この結果は、追加のトレーニング可能なパラメーターがほとんどない小規模 LLM (7B) でアダプター ベースの PEFT を使用すると、両方の推論タスクのゼロショット推論において、強力な LLM (175B) と同等、場合によっては優れたパフォーマンスが得られることを示しています。
要約(オリジナル)
The success of large language models (LLMs), like GPT-4 and ChatGPT, has led to the development of numerous cost-effective and accessible alternatives that are created by finetuning open-access LLMs with task-specific data (e.g., ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly one of the most attractive topics, as it only requires fine-tuning a few external parameters instead of the entire LLMs while achieving comparable or even better performance. To enable further research on PEFT methods of LLMs, this paper presents LLM-Adapters, an easy-to-use framework that integrates various adapters into LLMs and can execute these adapter-based PEFT methods of LLMs for different tasks. The framework includes state-of-the-art open-access LLMs such as LLaMA, BLOOM, and GPT-J, as well as widely used adapters such as Series adapters, Parallel adapter, Prompt-based learning and Reparametrization-based methods. Moreover, we conduct extensive empirical studies on the impact of adapter types, placement locations, and hyper-parameters to the best design for each adapter-based methods. We evaluate the effectiveness of the adapters on fourteen datasets from two different reasoning tasks, Arithmetic Reasoning and Commonsense Reasoning. The results demonstrate that using adapter-based PEFT in smaller-scale LLMs (7B) with few extra trainable parameters yields comparable, and in some cases superior, performance to powerful LLMs (175B) in zero-shot inference on both reasoning tasks.
arxiv情報
| 著者 | Zhiqiang Hu,Lei Wang,Yihuai Lan,Wanyu Xu,Ee-Peng Lim,Lidong Bing,Xing Xu,Soujanya Poria,Roy Ka-Wei Lee |
| 発行日 | 2023-10-09 15:38:46+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google