How does the task complexity of masked pretraining objectives affect downstream performance?

要約

マスク言語モデリング (MLM) は、広く使用されている自己教師あり事前トレーニング目標であり、モデルは、コンテキストが与えられたマスクに置き換えられる元のトークンを予測する必要があります。
最近では、マスクされたトークンの最初の文字を予測するなど、より単純で計算効率の高い事前トレーニング目標が MLM に匹敵する結果を示していますが、マスキング スキームを使用した目標で実際にダウンストリーム タスクでそれを上回るパフォーマンスはありません。
複雑さの欠如が劣化に重要な役割を果たしているという仮定に基づいて、より複雑なマスクされた目標がより良い結果を達成できるかどうかを検証し、MLM と同等のパフォーマンスを実現するにはどの程度の複雑さが必要であるかを調査します。
GLUE、SQuAD、ユニバーサル依存関係のベンチマークを使用した結果は、MLM と同等のパフォーマンスを発揮するために必要な MLM の複雑さの少なくとも半分で、より複雑な目標の方がダウンストリームの結果が向上する傾向があることを示しています。
最後に、タスクの複雑さの観点から、マスクされた目標を使用してモデルを事前トレーニングする方法について説明します。

要約(オリジナル)

Masked language modeling (MLM) is a widely used self-supervised pretraining objective, where a model needs to predict an original token that is replaced with a mask given contexts. Although simpler and computationally efficient pretraining objectives, e.g., predicting the first character of a masked token, have recently shown comparable results to MLM, no objectives with a masking scheme actually outperform it in downstream tasks. Motivated by the assumption that their lack of complexity plays a vital role in the degradation, we validate whether more complex masked objectives can achieve better results and investigate how much complexity they should have to perform comparably to MLM. Our results using GLUE, SQuAD, and Universal Dependencies benchmarks demonstrate that more complicated objectives tend to show better downstream results with at least half of the MLM complexity needed to perform comparably to MLM. Finally, we discuss how we should pretrain a model using a masked objective from the task complexity perspective.

arxiv情報

著者 Atsuki Yamaguchi,Hiroaki Ozaki,Terufumi Morishita,Gaku Morio,Yasuhiro Sogawa
発行日 2023-05-18 14:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク