Predictions For Pre-training Language Models

要約

言語モデルの事前トレーニングは、多くの言語理解タスクで役立つことが証明されています。
この論文では、事前トレーニングステップと微調整ステップにセルフトレーニングメソッドを追加することが依然として役立つかどうかを調査します。
この目標に向けて、低リソースおよび高リソースのラベル付きデータセットのラベルなしデータを最大限に活用する学習フレームワークを提案します。
業界の NLP アプリケーションでは、ユーザーまたは顧客によって生成された大量のデータがあります。
私たちの学習フレームワークは、この大量のラベルのないデータに基づいています。
まず、手動でラベル付けされたデータセットで微調整されたモデルを使用して、ユーザーが生成したラベル付けされていないデータの疑似ラベルを予測します。
次に、疑似ラベルを使用して、大量のユーザー生成データに対するタスク固有のトレーニングを監視します。
この疑似ラベルのタスク固有のトレーニング ステップは、次の微調整ステップの事前トレーニング ステップと見なします。
最後に、事前トレーニング済みのモデルに基づいて、手動でラベル付けされたデータセットを微調整します。
この作業では、手動でラベル付けされた微調整データセットが比較的小さい場合に、この方法がパフォーマンスを 3.6% 確実に改善できることを最初に経験的に示します。
次に、手動でラベル付けされた微調整データセットが比較的十分に大きい場合、この方法でパフォーマンスをさらに 0.2% 改善できることも示します。
私たちの方法は、ラベルのないデータを最大限に活用していると主張します。これは、事前トレーニングまたは自己トレーニングのみよりも優れています。

要約(オリジナル)

Language model pre-training has proven to be useful in many language understanding tasks. In this paper, we investigate whether it is still helpful to add the self-training method in the pre-training step and the fine-tuning step. Towards this goal, we propose a learning framework that making best use of the unlabel data on the low-resource and high-resource labeled dataset. In industry NLP applications, we have large amounts of data produced by users or customers. Our learning framework is based on this large amounts of unlabel data. First, We use the model fine-tuned on manually labeled dataset to predict pseudo labels for the user-generated unlabeled data. Then we use the pseudo labels to supervise the task-specific training on the large amounts of user-generated data. We consider this task-specific training step on pseudo labels as a pre-training step for the next fine-tuning step. At last, we fine-tune on the manually labeled dataset upon the pre-trained model. In this work, we first empirically show that our method is able to solidly improve the performance by 3.6%, when the manually labeled fine-tuning dataset is relatively small. Then we also show that our method still is able to improve the performance further by 0.2%, when the manually labeled fine-tuning dataset is relatively large enough. We argue that our method make the best use of the unlabel data, which is superior to either pre-training or self-training alone.

arxiv情報

著者 Tong Guo
発行日 2023-02-16 01:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク