要約
タイトル:ゼロリソース状態におけるクロスリンガルシーケンスラベリングのためのモデルとデータ転送
要約:
– ゼロリソース状態におけるクロスリンガル転送手法は、ソース言語から目標言語における教師ありモデルを適用することを目的としている。
– 本論文では、クロスリンガルのゼロリソースシーケンスラベリングにおいて従来採用されている2つの主要な技術、データまたはモデル転送について、詳細な研究を行った。
– 以前の研究では、翻訳や注釈投影(データベースのクロスリンガル転送)をクロスリンガルシーケンスラベリングにおいて有効な手法として提案していた。しかし、本論文では、高容量の多言語言語モデルを使用してゼロショット(モデルベースのクロスリンガル転送)設定で適用することが、データベースのクロスリンガル転送手法よりも一貫して優れていることを実験的に示した。
– 結果の詳細な分析から、これは言語使用に重要な違いがあるためと推測される。具体的には、機械翻訳は、ゴールド標準データを使用した際にモデルが露出するテキストシグナルとは異なるテキストシグナルを生成するため、ファインチューニングおよび評価プロセスに影響を与える可能性がある。
– 結果はまた、高容量の多言語言語モデルが利用できない場合、データベースのクロスリンガル転送手法は競合力のあるオプションであることを示している。
要約(オリジナル)
Zero-resource cross-lingual transfer approaches aim to apply supervised models from a source language to unlabelled target languages. In this paper we perform an in-depth study of the two main techniques employed so far for cross-lingual zero-resource sequence labelling, based either on data or model transfer. Although previous research has proposed translation and annotation projection (data-based cross-lingual transfer) as an effective technique for cross-lingual sequence labelling, in this paper we experimentally demonstrate that high capacity multilingual language models applied in a zero-shot (model-based cross-lingual transfer) setting consistently outperform data-based cross-lingual transfer approaches. A detailed analysis of our results suggests that this might be due to important differences in language use. More specifically, machine translation often generates a textual signal which is different to what the models are exposed to when using gold standard data, which affects both the fine-tuning and evaluation processes. Our results also indicate that data-based cross-lingual transfer approaches remain a competitive option when high-capacity multilingual language models are not available.
arxiv情報
著者 | Iker García-Ferrero,Rodrigo Agerri,German Rigau |
発行日 | 2023-04-27 10:39:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI