要約
入力テキストでランダムにマスクされた単語を予測するタスクであるマスクされた言語モデリングは、効率的な言語表現学習方法です。
マスクされた言語モデリングは、マスクされた位置を埋めるために人々が考えることができるさまざまな単語を無視し、1つの単語で損失を計算します。
特に、入力テキストが短い場合、マスクされた位置を埋めることができる単語分布のエントロピーが高くなる可能性があります。
これにより、モデルは単一の回答で自信過剰になる可能性があります。
この問題に対処するために、入力テキストの長さで動的に強度を動的に制御する新しい自信の正規容器を提案します。
接着剤と分隊のデータセットを使用した実験により、この方法は精度が向上し、予想されるキャリブレーションエラーが低下することが示されました。
要約(オリジナル)
Masked language modeling, which is a task to predict a randomly masked word in the input text, is an efficient language representation learning method. Masked language modeling ignores various words which people can think of for filling in the masked position and calculates the loss with a single word. Especially when the input text is short, the entropy of the word distribution that can fill in the masked position can be high. This may cause the model to be overconfident in the single answer. To address this issue, we propose a novel confidence regularizer that controls regularizing strength dynamically by the input text length. Experiments with GLUE and SQuAD datasets showed that our method achieves better accuracy and lower expected calibration error.
arxiv情報
著者 | Seunghyun Ji,Soowon Lee |
発行日 | 2025-04-08 13:37:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google