PromptDA: Label-guided Data Augmentation for Prompt-based Few-shot Learners

要約

大規模な事前トレーニング済み言語モデル (PLM) の最近の進歩により、タスク固有の微調整による自然言語理解 (NLU) タスクが大幅に向上しています。
ただし、PLM を直接微調整するには、ラベル付けされた十分な数のトレーニング インスタンスに大きく依存するため、通常は入手が困難です。
PLM でのプロンプトベースのチューニングは、ダウンストリームのさまざまな少数ショット タスクで強力であることが示されています。
少数ショット NLU タスクのプロンプトベースのチューニングを研究している既存の作業は、主に、バーバライザーを使用して適切なラベル ワードを導出するか、PLM からセマンティクスを引き出すプロンプト テンプレートを生成することに焦点を当てています。
さらに、同義語置換などの従来のデータ拡張戦略は、リソースの少ないシナリオで広く採用されていますが、プロンプトベースの少数ショット学習ではわずかな改善しかもたらしません。
したがって、重要な研究上の問題が生じます: プロンプトベースの少数ショット調整のための効果的なデータ拡張方法をどのように設計するか?
この目的のために、ラベルのセマンティクスがプロンプトベースのチューニングに不可欠であることを考慮して、データ拡張のために強化されたラベルのセマンティクス情報を活用する、新しいラベルガイド付きデータ拡張フレームワーク PromptDA を提案します。
少数ショットのテキスト分類タスクに関する広範な実験結果は、自然言語理解のためにラベルのセマンティクスとデータ拡張を効果的に活用することにより、提案されたフレームワークの優れたパフォーマンスを示しています。
コードは https://github.com/canyuchen/PromptDA で入手できます。

要約(オリジナル)

Recent advances in large pre-trained language models (PLMs) lead to impressive gains in natural language understanding (NLU) tasks with task-specific fine-tuning. However, directly fine-tuning PLMs heavily relies on sufficient labeled training instances, which are usually hard to obtain. Prompt-based tuning on PLMs has shown to be powerful for various downstream few-shot tasks. Existing works studying prompt-based tuning for few-shot NLU tasks mainly focus on deriving proper label words with a verbalizer or generating prompt templates to elicit semantics from PLMs. In addition, conventional data augmentation strategies such as synonym substitution, though widely adopted in low-resource scenarios, only bring marginal improvements for prompt-based few-shot learning. Thus, an important research question arises: how to design effective data augmentation methods for prompt-based few-shot tuning? To this end, considering the label semantics are essential in prompt-based tuning, we propose a novel label-guided data augmentation framework PromptDA, which exploits the enriched label semantic information for data augmentation. Extensive experiment results on few-shot text classification tasks demonstrate the superior performance of the proposed framework by effectively leveraging label semantics and data augmentation for natural language understanding. Our code is available at https://github.com/canyuchen/PromptDA.

arxiv情報

著者 Canyu Chen,Kai Shu
発行日 2023-03-22 21:10:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク