要約
言語を越えた伝達は、言語間で知識を伝達する効果的な方法となっています。
この論文では、この分野で見落とされがちな側面、つまり言語モデルのソース言語が言語伝達のパフォーマンスに及ぼす影響について調査します。
ターゲット言語とそのスクリプトが事前トレーニングされたモデルの一部ではない場合を考えます。
私たちは、さまざまなトークン化方法で事前トレーニングされた単言語モデルと多言語モデルで一連の実験を実施し、独自のスクリプトを使用した新しい言語への言語間移行に影響を与える要因を特定します。
私たちの調査結果では、共有スクリプト、言語の類似性、モデル サイズよりも強力な要素としてトークナイザーの重要性が明らかになりました。
要約(オリジナル)
Cross-lingual transfer has become an effective way of transferring knowledge between languages. In this paper, we explore an often overlooked aspect in this domain: the influence of the source language of a language model on language transfer performance. We consider a case where the target language and its script are not part of the pre-trained model. We conduct a series of experiments on monolingual and multilingual models that are pre-trained on different tokenization methods to determine factors that affect cross-lingual transfer to a new language with a unique script. Our findings reveal the importance of the tokenizer as a stronger factor than the shared script, language similarity, and model size.
arxiv情報
著者 | Wondimagegnhue Tsegaye Tufa,Ilia Markov,Piek Vossen |
発行日 | 2024-05-07 12:23:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google