要約
多言語言語モデルは、目に見えない言語に対して優れた言語間転送機能を示しますが、多言語モデルの事前トレーニング データで使用されている言語とスクリプトに差異がある場合、下流タスクのパフォーマンスは影響を受けます。
音訳を使用すると、リソースが豊富な言語のスクリプトをターゲット言語に合わせるための簡単かつ効果的な手段が提供され、それによって言語間の転送機能が強化されます。
ただし、混合言語の場合、言語のサブセットのみが言語間伝達の恩恵を受け、残りは妨げられるため、このアプローチは最適とは言えません。
この研究では、アラビア語、イタリア語、英語から大きな影響を受けており、特にラテン文字で書かれているセム語のマルタ語に焦点を当てています。
単語レベルの語源の注釈が付けられた新しいデータセットを紹介します。
このデータセットを使用して、マルタ語での各トークンの適切な処理に関して情報に基づいた決定を下せるようにする分類器をトレーニングします。
無差別の音訳または翻訳を、アラビア語起源の単語のみを音訳する混合処理パイプラインと対比させます。その結果、文字が混在したテキストが生成されます。
処理されたデータを 4 つの下流タスクで微調整し、単語の語源に基づいた条件付き音訳が最良の結果をもたらし、生のマルタ語または非選択パイプラインで処理されたマルタ語による微調整を上回っていることを示します。
要約(オリジナル)
Although multilingual language models exhibit impressive cross-lingual transfer capabilities on unseen languages, the performance on downstream tasks is impacted when there is a script disparity with the languages used in the multilingual model’s pre-training data. Using transliteration offers a straightforward yet effective means to align the script of a resource-rich language with a target language, thereby enhancing cross-lingual transfer capabilities. However, for mixed languages, this approach is suboptimal, since only a subset of the language benefits from the cross-lingual transfer while the remainder is impeded. In this work, we focus on Maltese, a Semitic language, with substantial influences from Arabic, Italian, and English, and notably written in Latin script. We present a novel dataset annotated with word-level etymology. We use this dataset to train a classifier that enables us to make informed decisions regarding the appropriate processing of each token in the Maltese language. We contrast indiscriminate transliteration or translation to mixing processing pipelines that only transliterate words of Arabic origin, thereby resulting in text with a mixture of scripts. We fine-tune the processed data on four downstream tasks and show that conditional transliteration based on word etymology yields the best results, surpassing fine-tuning with raw Maltese or Maltese processed with non-selective pipelines.
arxiv情報
著者 | Kurt Micallef,Nizar Habash,Claudia Borg,Fadhl Eryani,Houda Bouamor |
発行日 | 2024-01-30 11:04:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google