Iterative Mask Filling: An Effective Text Augmentation Method Using Masked Language Modeling

要約

データ補強は、機械学習モデルの性能を向上させるための効果的な手法である。しかし、自然言語処理(NLP)では、コンピュータビジョンほど広範囲に検討されていない。本稿では、変換器ベースのBERTモデルのFill-Mask機能を活用した、新しいテキスト補強法を提案する。本手法では、文中の単語を繰り返しマスクし、言語モデルの予測値で置き換える。提案手法を様々なNLPタスクでテストし、多くのケースで有効であることを発見した。その結果を、既存の補強手法との比較とともに示す。実験結果は、我々の提案手法が、特にトピック分類データセットにおいて、性能を大幅に向上させることを示している。

要約(オリジナル)

Data augmentation is an effective technique for improving the performance of machine learning models. However, it has not been explored as extensively in natural language processing (NLP) as it has in computer vision. In this paper, we propose a novel text augmentation method that leverages the Fill-Mask feature of the transformer-based BERT model. Our method involves iteratively masking words in a sentence and replacing them with language model predictions. We have tested our proposed method on various NLP tasks and found it to be effective in many cases. Our results are presented along with a comparison to existing augmentation methods. Experimental results show that our proposed method significantly improves performance, especially on topic classification datasets.

arxiv情報

著者 Himmet Toprak Kesgin,Mehmet Fatih Amasyali
発行日 2024-01-03 16:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク