Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training

要約

ここでは、少数ショットの意図検出のタスクについて考えます。これには、少量のラベル付きデータのみを使用して、根底にある意図に基づいて発話を分類する深層学習モデルのトレーニングが含まれます。
この問題に対処する現在のアプローチは、継続的な事前トレーニング、つまり、外部リソース (会話コーパス、公共の意図検出データセット、自然言語理解データセットなど) で事前トレーニングされた言語モデル (PLM) を使用する前に微調整することです。
意図分類子をトレーニングするための発話エンコーダーとして。
この論文では、このタスクにおける PLM のオーバーフィッティング問題は予想されるほど深刻ではない可能性があるため、継続的な事前トレーニングは必須ではない可能性があることを示します。
具体的には、ほんの一握りのラベル付きサンプルに対して PLM を直接微調整することで、継続的な事前トレーニングを使用する方法と比較してすでにまともな結果が得られ、ラベル付きデータの数が増加するにつれてパフォーマンスの差が急速に減少することがわかりました。
限られた利用可能なデータを最大限に活用するために、コンテキスト拡張手法を提案し、逐次自己蒸留を活用してパフォーマンスを向上させます。
現実世界のベンチマークに関する包括的な実験では、クラスごとに 2 つ以上のラベル付きサンプルのみが与えられた場合、直接微調整が、継続的な事前トレーニングに外部データ ソースを利用する多くの強力なベースラインよりも優れたパフォーマンスを発揮することが示されています。
コードは https://github.com/hdzhang-code/DFTPlus にあります。

要約(オリジナル)

We consider the task of few-shot intent detection, which involves training a deep learning model to classify utterances based on their underlying intents using only a small amount of labeled data. The current approach to address this problem is through continual pre-training, i.e., fine-tuning pre-trained language models (PLMs) on external resources (e.g., conversational corpora, public intent detection datasets, or natural language understanding datasets) before using them as utterance encoders for training an intent classifier. In this paper, we show that continual pre-training may not be essential, since the overfitting problem of PLMs on this task may not be as serious as expected. Specifically, we find that directly fine-tuning PLMs on only a handful of labeled examples already yields decent results compared to methods that employ continual pre-training, and the performance gap diminishes rapidly as the number of labeled data increases. To maximize the utilization of the limited available data, we propose a context augmentation method and leverage sequential self-distillation to boost performance. Comprehensive experiments on real-world benchmarks show that given only two or more labeled samples per class, direct fine-tuning outperforms many strong baselines that utilize external data sources for continual pre-training. The code can be found at https://github.com/hdzhang-code/DFTPlus.

arxiv情報

著者 Haode Zhang,Haowen Liang,Liming Zhan,Xiao-Ming Wu,Albert Y. S. Lam
発行日 2023-06-08 15:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク