Don’t Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner

要約

大量のラベルなしデータでトレーニングされた言語モデル (LM) は、自然言語処理 (NLP) の分野を大きく進歩させました。
この研究では、タスク関連のテキストで LM の事前トレーニングを継続すると、下流タスクの微調整 (FT) のパフォーマンスが向上するという、NLP で広く受け入れられている概念を再検討します。
半教師あり設定と完全教師あり設定の両方で 8 つの単一文タスクと 8 つの文ペア タスクに関する実験を通じて、従来の継続的な事前トレーニングでは一貫して利点が得られず、文ペア タスクや場合によっては有害になる可能性さえあることがわかりました。
プロンプトベースの FT が使用されます。
これらの問題に取り組むために、私たちは、命令チューニングの考え方と従来の継続的事前トレーニングを組み合わせたプロンプトベースの継続的事前トレーニング (PCP) を提案します。
私たちのアプローチは、ターゲットタスクに合わせて微調整する前に、教師なしの事前トレーニング目標を通じてタスク関連のテキストとプロンプトテンプレートの両方をLMに提示することで、プロンプトベースのFTのパフォーマンスを向上させることを目的としています。
21 のベンチマークに関する実証的評価では、PCP が、半教師あり設定と完全教師あり設定の両方で、最先端のプロンプトベースの FT アプローチのパフォーマンス (絶対値最大 20.1%) を、わずか数百のベンチマークでも一貫して向上させることを示しています。
ラベルのない例。
さらに、PCP を使用したプロンプトベースの FT は、最先端の半教師ありアプローチよりも優れたシンプルさで優れたパフォーマンスを発揮し、反復プロセスや追加のデータ拡張の必要性を排除します。
さらなる分析により、PCP のパフォーマンスの下限が調査され、PCP の利点がさまざまなサイズのモデルやデータセットにわたって持続することが明らかになりました。

要約(オリジナル)

Language models (LMs) trained on vast quantities of unlabelled data have greatly advanced the field of natural language processing (NLP). In this study, we re-visit the widely accepted notion in NLP that continued pre-training LMs on task-related texts improves the performance of fine-tuning (FT) in downstream tasks. Through experiments on eight single-sentence tasks and eight sentence-pair tasks in both semi-supervised and fully-supervised settings, we find that conventional continued pre-training does not consistently provide benefits and can even be detrimental for sentence-pair tasks or when prompt-based FT is used. To tackle these issues, we propose Prompt-based Continued Pre-training (PCP), which combines the idea of instruction tuning with conventional continued pre-training. Our approach aims to improve the performance of prompt-based FT by presenting both task-related texts and prompt templates to LMs through unsupervised pre-training objectives before fine-tuning for the target task. Our empirical evaluations on 21 benchmarks demonstrate that the PCP consistently improves the performance of state-of-the-art prompt-based FT approaches (up to 20.1% absolute) in both semi-supervised and fully-supervised settings, even with only hundreds of unlabelled examples. Additionally, prompt-based FT with the PCP outperforms state-of-the-art semi-supervised approaches with greater simplicity, eliminating the need for an iterative process and extra data augmentation. Our further analysis explores the performance lower bound of the PCP and reveals that the advantages of PCP persist across different sizes of models and datasets.

arxiv情報

著者 Zhengxiang Shi,Aldo Lipani
発行日 2023-10-06 17:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク