Analyzing the Effect of Linguistic Similarity on Cross-Lingual Transfer: Tasks and Experimental Setups Matter


言語間の転送は、リソースが少ない状況で NLP タスクのトレーニング データの量を増やすための一般的なアプローチです。
この研究では、さまざまな言語族の 266 言語の言語間の転移を分析します。
さらに、POS タグ付け、依存関係解析、トピック分類という 3 つの一般的な NLP タスクが含まれています。
私たちの調査結果は、言語の類似性が転送パフォーマンスに及ぼす影響は、NLP タスク、(単言語または多言語の) 入力表現、および言語の類似性の定義などのさまざまな要因に依存することを示しています。


Cross-lingual transfer is a popular approach to increase the amount of training data for NLP tasks in a low-resource context. However, the best strategy to decide which cross-lingual data to include is unclear. Prior research often focuses on a small set of languages from a few language families and/or a single task. It is still an open question how these findings extend to a wider variety of languages and tasks. In this work, we analyze cross-lingual transfer for 266 languages from a wide variety of language families. Moreover, we include three popular NLP tasks: POS tagging, dependency parsing, and topic classification. Our findings indicate that the effect of linguistic similarity on transfer performance depends on a range of factors: the NLP task, the (mono- or multilingual) input representations, and the definition of linguistic similarity.


著者 Verena Blaschke,Masha Fedzechkina,Maartje ter Hoeve
発行日 2025-01-24 13:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク