XNLIeu: a dataset for cross-lingual NLI in Basque

要約

XNLI は、言語を越えた自然言語理解 (NLU) 機能を評価するために広く使用されている人気の自然言語推論 (NLI) ベンチマークです。
このペーパーでは、転移学習アプローチから大きなメリットが得られる低リソース言語であるバスク語を含めるように XNLI を拡張します。
XNLIeu と呼ばれる新しいデータセットは、最初に英語の XNLI コーパスをバスク語に機械翻訳し、その後手動による後編集ステップを行うことによって開発されました。
私たちは、単言語および多言語 LLM を使用して、a) MT システムに対するプロフェッショナルなポストエディションの効果を評価する一連の実験を実施しました。
b) バスク語における NLI の最適な多言語戦略。
c) 最適な言語間戦略の選択が、データセットが翻訳によって構築されているという事実に影響されるかどうか。
結果は、ポストエディットが必要であること、翻訳トレーニングのクロスリンガル戦略が全体的により良い結果を得ることが示されていますが、スクラッチからネイティブに構築されたデータセットでテストするとゲインは低くなります。
私たちのコードとデータセットは、オープンライセンスの下で公開されています。

要約(オリジナル)

XNLI is a popular Natural Language Inference (NLI) benchmark widely used to evaluate cross-lingual Natural Language Understanding (NLU) capabilities across languages. In this paper, we expand XNLI to include Basque, a low-resource language that can greatly benefit from transfer-learning approaches. The new dataset, dubbed XNLIeu, has been developed by first machine-translating the English XNLI corpus into Basque, followed by a manual post-edition step. We have conducted a series of experiments using mono- and multilingual LLMs to assess a) the effect of professional post-edition on the MT system; b) the best cross-lingual strategy for NLI in Basque; and c) whether the choice of the best cross-lingual strategy is influenced by the fact that the dataset is built by translation. The results show that post-edition is necessary and that the translate-train cross-lingual strategy obtains better results overall, although the gain is lower when tested in a dataset that has been built natively from scratch. Our code and datasets are publicly available under open licenses.

arxiv情報

著者 Maite Heredia,Julen Etxaniz,Muitze Zulaika,Xabier Saralegi,Jeremy Barnes,Aitor Soroa
発行日 2024-04-10 13:19:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク