Unknown Script: Impact of Script on Cross-Lingual Transfer

要約

言語を越えた伝達は、言語間で知識を伝達する効果的な方法となっています。
このペーパーでは、この分野で見落とされがちな側面、つまり基本言語モデルのソース言語が転送パフォーマンスに及ぼす影響について調査します。
事前トレーニングされたモデルで使用されるスクリプトとトークナイザーが下流タスクのパフォーマンスに及ぼす影響を判断するために、一連の実験を実施します。
私たちの調査結果では、スクリプトの共有、言語類型の一致、モデルのサイズよりも強力な要素としてトークナイザーの重要性が明らかになりました。

要約(オリジナル)

Cross-lingual transfer has become an effective way of transferring knowledge between languages. In this paper, we explore an often-overlooked aspect in this domain: the influence of the source language of the base language model on transfer performance. We conduct a series of experiments to determine the effect of the script and tokenizer used in the pre-trained model on the performance of the downstream task. Our findings reveal the importance of the tokenizer as a stronger factor than the sharing of the script, the language typology match, and the model size.

arxiv情報

著者 Wondimagegnhue Tsegaye Tufa,Ilia Markov,Piek Vossen
発行日 2024-04-29 15:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク