Self-Evolution Learning for Discriminative Language Model Pretraining

要約

マスクされた言語モデリングは、識別言語モデル (BERT など) の事前トレーニングで広く使用されており、一般にランダム マスキング戦略を採用しています。
ただし、ランダム マスキングでは、文の意味におけるさまざまな単語の重要性が考慮されず、単語の中には予測に値するものもあります。
したがって、さまざまなマスキング戦略 (エンティティレベルのマスキングなど) が提案されていますが、そのほとんどは高価な事前知識を必要とし、一般に既存のモデルの重みを再利用せずに最初からトレーニングします。
この論文では、データからの知識を完全かつ賢明に活用するためのシンプルで効果的なトークン マスキングおよび学習方法である自己進化学習 (SE) を紹介します。
SE は、有益であるにもかかわらず十分に調査されていないトークンの学習に重点を置き、新しいトークン固有のラベル スムージング アプローチを導入することでトレーニングを適応的に規則化します。
10 のタスクに関する実験では、SE がさまざまな PLM に対して一貫した大幅な改善 (平均スコア +1.43 ~ 2.12) をもたらすことが示されました。
詳細な分析により、SE が言語知識の学習と一般化を向上させることが実証されています。

要約(オリジナル)

Masked language modeling, widely used in discriminative language model (e.g., BERT) pretraining, commonly adopts a random masking strategy. However, random masking does not consider the importance of the different words in the sentence meaning, where some of them are more worthy to be predicted. Therefore, various masking strategies (e.g., entity-level masking) are proposed, but most of them require expensive prior knowledge and generally train from scratch without reusing existing model weights. In this paper, we present Self-Evolution learning (SE), a simple and effective token masking and learning method to fully and wisely exploit the knowledge from data. SE focuses on learning the informative yet under-explored tokens and adaptively regularizes the training by introducing a novel Token-specific Label Smoothing approach. Experiments on 10 tasks show that our SE brings consistent and significant improvements (+1.43~2.12 average scores) upon different PLMs. In-depth analyses demonstrate that SE improves linguistic knowledge learning and generalization.

arxiv情報

著者 Qihuang Zhong,Liang Ding,Juhua Liu,Bo Du,Dacheng Tao
発行日 2023-05-24 16:00:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク