Event Extraction in Basque: Typologically motivated Cross-Lingual Transfer-Learning Analysis

要約

言語間転移学習は、低リソース言語のイベント抽出で広く使用されており、ソース言語でトレーニングされてターゲット言語に適用される多言語言語モデルが含まれます。
この論文では、ソース言語とターゲット言語の間の類型的類似性が、十分に研究されていないトピックである言語間伝達のパフォーマンスに影響を与えるかどうかを研究します。
まず、ターゲット言語としてバスク語に焦点を当てます。バスク語は、周囲の言語とは類型的に異なるため、理想的なターゲット言語です。
3 つのイベント抽出タスクに関する実験では、ソース言語とターゲット言語の間で共有される言語特性が転送品質に影響を与えることがわかりました。
72 の言語ペアをさらに分析すると、エンティティやイベント トリガーの識別などのトークン分類を伴うタスクでは、共通の筆記体と形態学的特徴により、より高品質な言語間の伝達が行われることが明らかになりました。
対照的に、引数抽出などの構造予測を伴うタスクでは、一般的な語順が最も関連性の高い機能です。
さらに、トレーニング サイズを増やすと、言語をまたいだ設定ではすべての言語が同じようにスケールされるわけではないことも示します。
実験を実行するために、多言語イベント抽出データセット (MEE) に従うバスク語のイベント抽出データセットである EusIE を導入します。
データセットとコードは公開されています。

要約(オリジナル)

Cross-lingual transfer-learning is widely used in Event Extraction for low-resource languages and involves a Multilingual Language Model that is trained in a source language and applied to the target language. This paper studies whether the typological similarity between source and target languages impacts the performance of cross-lingual transfer, an under-explored topic. We first focus on Basque as the target language, which is an ideal target language because it is typologically different from surrounding languages. Our experiments on three Event Extraction tasks show that the shared linguistic characteristic between source and target languages does have an impact on transfer quality. Further analysis of 72 language pairs reveals that for tasks that involve token classification such as entity and event trigger identification, common writing script and morphological features produce higher quality cross-lingual transfer. In contrast, for tasks involving structural prediction like argument extraction, common word order is the most relevant feature. In addition, we show that when increasing the training size, not all the languages scale in the same way in the cross-lingual setting. To perform the experiments we introduce EusIE, an event extraction dataset for Basque, which follows the Multilingual Event Extraction dataset (MEE). The dataset and code are publicly available.

arxiv情報

著者 Mikel Zubillaga,Oscar Sainz,Ainara Estarrona,Oier Lopez de Lacalle,Eneko Agirre
発行日 2024-04-09 15:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク