Learning Better Masking for Better Language Model Pre-training

要約

マスキング言語モデリング(MLM)は、言語モデル(PrLM)の事前学習におけるノイズ除去目的として広く使用されている。既存のPrLMは、一般的にランダムトークンマスキング戦略を採用しており、一定のマスキング比率が適用され、学習全体を通して異なる内容が等確率でマスキングされる。しかし、このモデルでは、学習前の状態から複雑な影響を受ける可能性があり、学習時間が経過するにつれて、それに応じて変化する。本論文では、このようなマスキング率やマスキング内容に関する時間不変のMLM設定は最適な結果をもたらさないことを示し、時間不変のMLM設定の影響を探る動機付けとするものである。我々は、異なる訓練段階においてマスキング比とマスキング内容を適応的に調整する2つのスケジュール型マスキングアプローチを提案し、事前訓練の効率と下流タスクで検証される有効性を改善する。本研究は、マスキング比とマスキング内容に関する時変マスキング戦略の先駆的研究であり、マスキング比とマスキング内容がMLMの事前学習にどのように影響するかをより良く理解することができるものである。

要約(オリジナル)

Masked Language Modeling (MLM) has been widely used as the denoising objective in pre-training language models (PrLMs). Existing PrLMs commonly adopt a Random-Token Masking strategy where a fixed masking ratio is applied and different contents are masked by an equal probability throughout the entire training. However, the model may receive complicated impact from pre-training status, which changes accordingly as training time goes on. In this paper, we show that such time-invariant MLM settings on masking ratio and masked content are unlikely to deliver an optimal outcome, which motivates us to explore the influence of time-variant MLM settings. We propose two scheduled masking approaches that adaptively tune the masking ratio and masked content in different training stages, which improves the pre-training efficiency and effectiveness verified on the downstream tasks. Our work is a pioneer study on time-variant masking strategy on ratio and content and gives a better understanding of how masking ratio and masked content influence the MLM pre-training.

arxiv情報

著者 Dongjie Yang,Zhuosheng Zhang,Hai Zhao
発行日 2023-03-03 07:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク