要約
事前学習済み言語モデル (PLM) は、さまざまな NLP タスクで驚くべき改善を示しています。
ほとんどの中国語 PLM は、入力テキストを一連の文字として処理し、単語情報を完全に無視します。
単語全体のマスキングはこれを軽減できますが、単語のセマンティクスはまだ十分に表現されていません。
このホワイト ペーパーでは、中国の PLM のセグメンテーションの粒度を再検討します。
文字と単語の両方を考慮して、混合粒度中国語 BERT (MigBERT) を提案します。
これを達成するために、文字レベルと単語レベルの両方の表現を学習するための目的関数を設計します。
既存の PLM と提案された MigBERT を評価するために、さまざまな中国の NLP タスクで広範な実験を行います。
実験結果は、MigBERT がこれらすべてのタスクで新しい SOTA パフォーマンスを達成することを示しています。
さらに分析すると、単語は文字よりも意味的に豊かであることが示されています。
さらに興味深いことに、MigBERT は日本語でも動作することを示しています。
私たちのコードとモデルはここで公開されています~\footnote{https://github.com/xnliang98/MigBERT}.
要約(オリジナル)
Pretrained language models (PLMs) have shown marvelous improvements across various NLP tasks. Most Chinese PLMs simply treat an input text as a sequence of characters, and completely ignore word information. Although Whole Word Masking can alleviate this, the semantics in words is still not well represented. In this paper, we revisit the segmentation granularity of Chinese PLMs. We propose a mixed-granularity Chinese BERT (MigBERT) by considering both characters and words. To achieve this, we design objective functions for learning both character and word-level representations. We conduct extensive experiments on various Chinese NLP tasks to evaluate existing PLMs as well as the proposed MigBERT. Experimental results show that MigBERT achieves new SOTA performance on all these tasks. Further analysis demonstrates that words are semantically richer than characters. More interestingly, we show that MigBERT also works with Japanese. Our code and model have been released here~\footnote{https://github.com/xnliang98/MigBERT}.
arxiv情報
著者 | Xinnian Liang,Zefan Zhou,Hui Huang,Shuangzhi Wu,Tong Xiao,Muyun Yang,Zhoujun Li,Chao Bian |
発行日 | 2023-03-20 06:20:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google