Task-adaptive Pre-training and Self-training are Complementary for Natural Language Understanding

要約

タスク適応事前トレーニング (TAPT) とセルフトレーニング (ST) は、大量のラベルなしデータを使用して自然言語理解 (NLU) タスクを改善するための主要な半教師付きアプローチとして登場しました。
ただし、それらが同様の表現を学習するのか、それとも効果的に組み合わせることができるのかは不明です。
このホワイト ペーパーでは、TAPT -> 微調整 -> セルフ トレーニング (TFS) プロセスに従うことで、TAPT と ST が単純な TFS プロトコルを補完できることを示します。
実験結果は、TFS プロトコルがラベルなしデータを効果的に利用して、感情分類、言い換え識別、自然言語推論、名前付きエンティティ認識、および対話スロット分類をカバーする 6 つのデータセット全体で一貫して強力な結合ゲインを達成できることを示しています。
さまざまな半教師付き設定を調査し、TFS 手順に従うことで、TAPT と ST からのゲインが強力に加算されることを一貫して示しています。
TFS が、将来の NLP 研究の重要な半教師付きベースラインとして役立つことを願っています。

要約(オリジナル)

Task-adaptive pre-training (TAPT) and Self-training (ST) have emerged as the major semi-supervised approaches to improve natural language understanding (NLU) tasks with massive amount of unlabeled data. However, it’s unclear whether they learn similar representations or they can be effectively combined. In this paper, we show that TAPT and ST can be complementary with simple TFS protocol by following TAPT -> Finetuning -> Self-training (TFS) process. Experimental results show that TFS protocol can effectively utilize unlabeled data to achieve strong combined gains consistently across six datasets covering sentiment classification, paraphrase identification, natural language inference, named entity recognition and dialogue slot classification. We investigate various semi-supervised settings and consistently show that gains from TAPT and ST can be strongly additive by following TFS procedure. We hope that TFS could serve as an important semi-supervised baseline for future NLP studies.

arxiv情報

著者 Shiyang Li,Semih Yavuz,Wenhu Chen,Xifeng Yan
発行日 2023-02-19 08:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク