Scaled Prompt-Tuning for Few-Shot Natural Language Generation

要約

ますます大規模化する言語モデル (LLM) は、より強力な言語理解と生成機能を実証する一方で、下流タスクで LLM を微調整するためのメモリ需要と計算コストは​​無視できません。
さらに、微調整には通常、個々のタスクからの一定量のデータが必要ですが、実際のアプリケーションではデータ収集コストも考慮すべき問題です。
この研究では、少数ショットの自然言語生成 (NLG) のためのパラメータ効率の良い微調整 (PEFT) 手法に焦点を当てます。これは、LLM 内のほとんどのパラメータをフリーズし、少数ショットの場合にパラメータの小さなサブセットを調整することで、メモリ フットプリントを向上させます。
、トレーニング コスト、ラベル付けコストが削減され、パフォーマンスを維持または向上させることさえできます。
我々は、トレーニングコストの明らかな増加を伴わずに、より優れたパフォーマンスと汎化能力を備え、従来の PT を上回るスケールドプロンプトチューニング (SPT) 手法を提案します。
中間 SPT に関するさらなる研究により、数ショットのシナリオにおける SPT の優れた転送可能性が示唆され、データ不足や計算量が制限された状況に対するレシピが提供されます。
さらに、既存の PEFT 手法の包括的な比較により、先行研究の Prefix-Tuning など、適度なトレーニング コストでまともなパフォーマンスを示す特定のアプローチは、ショット数の少ない NLG タスク、特に困難なデータセットでは苦戦する可能性があることが明らかになりました。

要約(オリジナル)

The increasingly Large Language Models (LLMs) demonstrate stronger language understanding and generation capabilities, while the memory demand and computation cost of fine-tuning LLMs on downstream tasks are non-negligible. Besides, fine-tuning generally requires a certain amount of data from individual tasks whilst data collection cost is another issue to consider in real-world applications. In this work, we focus on Parameter-Efficient Fine-Tuning (PEFT) methods for few-shot Natural Language Generation (NLG), which freeze most parameters in LLMs and tune a small subset of parameters in few-shot cases so that memory footprint, training cost, and labeling cost are reduced while maintaining or even improving the performance. We propose a Scaled Prompt-Tuning (SPT) method which surpasses conventional PT with better performance and generalization ability but without an obvious increase in training cost. Further study on intermediate SPT suggests the superior transferability of SPT in few-shot scenarios, providing a recipe for data-deficient and computation-limited circumstances. Moreover, a comprehensive comparison of existing PEFT methods reveals that certain approaches exhibiting decent performance with modest training cost such as Prefix-Tuning in prior study could struggle in few-shot NLG tasks, especially on challenging datasets.

arxiv情報

著者 Ting Hu,Christoph Meinel,Haojin Yang
発行日 2023-09-13 07:12:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク