要約
近年、NLP 用の事前トレーニング済み言語モデルの開発が大幅に進歩しました。
ただし、これらのモデルは、小さなデータセットで微調整すると問題が発生することがよくあります。
この問題に対処するために、研究者たちはさまざまな適応アプローチを提案してきました。
特に大型モデルの場合、即時ベースのチューニングがおそらく最も一般的な方法です。
これまでの研究では、プロンプトベースの微調整に対照学習を追加すると、モデルがクラス間でより区別しやすいエンベディングを生成できるため効果的であり、モデルが正の例と負の例から同時に学習するためサンプル効率も向上することが示されています。
対照学習の最も重要なコンポーネントの 1 つはデータ拡張ですが、コンピューター ビジョンとは異なり、NLP の効果的なデータ拡張は依然として困難です。
この論文は、生成言語モデル、特に GPT-3 や OPT-175B などの大規模言語モデルを使用した、プロンプトベースの数ショットの言い換えを活用する、対照的言い換えガイド付きプロンプトベースの言語モデルの微調整である LM-CPPF を提案します。
データの増強。
複数のテキスト分類ベンチマークに関する実験では、この拡張方法が、簡単なデータ拡張、逆変換、複数のテンプレートなどの他の方法よりも優れていることがわかりました。
要約(オリジナル)
In recent years, there has been significant progress in developing pre-trained language models for NLP. However, these models often struggle when fine-tuned on small datasets. To address this issue, researchers have proposed various adaptation approaches. Prompt-based tuning is arguably the most common way, especially for larger models. Previous research shows that adding contrastive learning to prompt-based fine-tuning is effective as it helps the model generate embeddings that are more distinguishable between classes, and it can also be more sample-efficient as the model learns from positive and negative examples simultaneously. One of the most important components of contrastive learning is data augmentation, but unlike computer vision, effective data augmentation for NLP is still challenging. This paper proposes LM-CPPF, Contrastive Paraphrasing-guided Prompt-based Fine-tuning of Language Models, which leverages prompt-based few-shot paraphrasing using generative language models, especially large language models such as GPT-3 and OPT-175B, for data augmentation. Our experiments on multiple text classification benchmarks show that this augmentation method outperforms other methods, such as easy data augmentation, back translation, and multiple templates.
arxiv情報
著者 | Amirhossein Abaskohi,Sascha Rothe,Yadollah Yaghoobzadeh |
発行日 | 2023-05-29 15:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google