WangchanBERTa はトランスベースのタイ語モデリングの事実上の標準となっていますが、外来語、特に多くの文脈でタイ語に正書法で同化されずに借用されることが多い英語の単語の理解に関しては依然として欠点があります。
私たちは、WangchanBERTa のトークナイザーに外国語の語彙が不足していることが、これらの欠点の主な原因であると特定しています。
次に、XLM-R の事前トレーニング済みトークナイザーからの語彙転送を介して WangchanBERTa の語彙を拡張し、拡張されたトークナイザーを使用して、WangchanBERTa のトレーニングに使用されたものよりも大きい新しいデータセット上で、WangchanBERTa のチェックポイントから開始して新しいモデルを事前トレーニングします。
私たちの結果は、新しい事前トレーニング済みモデルである PhayaThaiBERT が、多くの下流タスクおよびデータセットにおいて WangchanBERTa よりも優れていることを示しています。
While WangchanBERTa has become the de facto standard in transformer-based Thai language modeling, it still has shortcomings in regard to the understanding of foreign words, most notably English words, which are often borrowed without orthographic assimilation into Thai in many contexts. We identify the lack of foreign vocabulary in WangchanBERTa’s tokenizer as the main source of these shortcomings. We then expand WangchanBERTa’s vocabulary via vocabulary transfer from XLM-R’s pretrained tokenizer and pretrain a new model using the expanded tokenizer, starting from WangchanBERTa’s checkpoint, on a new dataset that is larger than the one used to train WangchanBERTa. Our results show that our new pretrained model, PhayaThaiBERT, outperforms WangchanBERTa in many downstream tasks and datasets.
著者 | Panyut Sriwirote,Jalinee Thapiang,Vasan Timtong,Attapol T. Rutherford |
発行日 | 2023-11-21 09:37:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google