Weighted Sampling for Masked Language Modeling

要約

Masked Language Modeling (MLM) は、言語モデルの事前トレーニングに広く使用されています。
MLM の標準的なランダム マスキング戦略では、事前トレーニング済みの言語モデル (PLM) が高頻度のトークンに偏ります。
まれなトークンの表現学習は貧弱であり、PLM はダウンストリーム タスクでのパフォーマンスが制限されています。
この頻度バイアスの問題を軽減するために、トークンの頻度とトレーニング損失に基づいてトークンをマスキングするための 2 つのシンプルで効果的な加重サンプリング戦略を提案します。
これら 2 つの戦略を BERT に適用し、Weighted-Sampled BERT (WSBERT) を取得します。
Semantic Textual Similarity ベンチマーク (STS) に関する実験では、WSBERT が BERT よりも文の埋め込みを大幅に改善することが示されています。
WSBERT をキャリブレーション方法と迅速な学習と組み合わせることで、文の埋め込みがさらに改善されます。
また、GLUE ベンチマークで WSBERT の微調整を調査し、加重サンプリングがバックボーン PLM の転移学習機能も改善することを示します。
WSBERT がトークンの埋め込みをどのように改善するかについて、さらに分析し、洞察を提供します。

要約(オリジナル)

Masked Language Modeling (MLM) is widely used to pretrain language models. The standard random masking strategy in MLM causes the pre-trained language models (PLMs) to be biased toward high-frequency tokens. Representation learning of rare tokens is poor and PLMs have limited performance on downstream tasks. To alleviate this frequency bias issue, we propose two simple and effective Weighted Sampling strategies for masking tokens based on the token frequency and training loss. We apply these two strategies to BERT and obtain Weighted-Sampled BERT (WSBERT). Experiments on the Semantic Textual Similarity benchmark (STS) show that WSBERT significantly improves sentence embeddings over BERT. Combining WSBERT with calibration methods and prompt learning further improves sentence embeddings. We also investigate fine-tuning WSBERT on the GLUE benchmark and show that Weighted Sampling also improves the transfer learning capability of the backbone PLM. We further analyze and provide insights into how WSBERT improves token embeddings.

arxiv情報

著者 Linhan Zhang,Qian Chen,Wen Wang,Chong Deng,Xin Cao,Kongzhang Hao,Yuxin Jiang,Wei Wang
発行日 2023-02-28 01:07:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク