Analyzing the Effect of Linguistic Similarity on Cross-Lingual Transfer: Tasks and Experimental Setups Matter

要約

言語間の転送は、リソースが少ない状況で NLP タスクのトレーニング データの量を増やすための一般的なアプローチです。
ただし、どの言語間データを含めるかを決定するための最良の戦略は不明です。
これまでの研究では、少数の言語族の少数の言語セットや単一のタスクに焦点を当てていることがよくあります。
これらの発見がより多様な言語やタスクにどのように拡張されるかは、まだ未解決の問題です。
この研究では、さまざまな言語族の 266 言語の言語間の転移を分析します。
さらに、POS タグ付け、依存関係解析、トピック分類という 3 つの一般的な NLP タスクが含まれています。
私たちの調査結果は、言語の類似性が転送パフォーマンスに及ぼす影響は、NLP タスク、(単言語または多言語の) 入力表現、および言語の類似性の定義などのさまざまな要因に依存することを示しています。

要約(オリジナル)

Cross-lingual transfer is a popular approach to increase the amount of training data for NLP tasks in a low-resource context. However, the best strategy to decide which cross-lingual data to include is unclear. Prior research often focuses on a small set of languages from a few language families and/or a single task. It is still an open question how these findings extend to a wider variety of languages and tasks. In this work, we analyze cross-lingual transfer for 266 languages from a wide variety of language families. Moreover, we include three popular NLP tasks: POS tagging, dependency parsing, and topic classification. Our findings indicate that the effect of linguistic similarity on transfer performance depends on a range of factors: the NLP task, the (mono- or multilingual) input representations, and the definition of linguistic similarity.

arxiv情報

著者 Verena Blaschke,Masha Fedzechkina,Maartje ter Hoeve
発行日 2025-01-24 13:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク