要約
タイトル:非標準言語に対する品詞タギングにおけるクロスリンガルトランスファーを促進するトークン化操作の有効性の研究
要約:
– プレトレーニング済み言語モデル(PLMs)をファインチューニングする際の課題の一つは、トークナイザーがプレトレーニングされた言語に最適化されているが、データの以前に見たことがないバリエーションに対しては脆弱であること。
– これは、PLMsを1つの言語のファインチューニングして、標準化されていない綴りに関連する言語バリエーションのデータを評価する場合に、観察される。
– 高い言語の類似性にもかかわらず、トークナイゼーションが対象データの意味のある表現に基づかなくなり、品詞タギングなどの低いパフォーマンスを引き起こす。
– この研究では、3つの異なる系統から7つの言語でPLMsをファインチューニングし、関連性の高い非標準化されたバリエーションのゼロショットパフォーマンスを分析する。
– ソースとターゲットデータのトークナイズの分岐の異なりに対する類似性(分割語比率の差)は、ターゲットデータのモデルパフォーマンスの最も強い予測子であることがわかった。
要約(オリジナル)
One of the challenges with finetuning pretrained language models (PLMs) is that their tokenizer is optimized for the language(s) it was pretrained on, but brittle when it comes to previously unseen variations in the data. This can for instance be observed when finetuning PLMs on one language and evaluating them on data in a closely related language variety with no standardized orthography. Despite the high linguistic similarity, tokenization no longer corresponds to meaningful representations of the target data, leading to low performance in, e.g., part-of-speech tagging. In this work, we finetune PLMs on seven languages from three different families and analyze their zero-shot performance on closely related, non-standardized varieties. We consider different measures for the divergence in the tokenization of the source and target data, and the way they can be adjusted by manipulating the tokenization during the finetuning step. Overall, we find that the similarity between the percentage of words that get split into subwords in the source and target data (the split word ratio difference) is the strongest predictor for model performance on target data.
arxiv情報
著者 | Verena Blaschke,Hinrich Schütze,Barbara Plank |
発行日 | 2023-04-20 08:32:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI