Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction

要約

大規模言語モデル (LLM) と命令チューニングを組み合わせると、情報抽出 (IE) タスクが大幅に進歩し、アノテーション ガイドラインに従うことで、目に見えないデータセットに対する強力な一般化機能が発揮されます。
ただし、微調整用のラベル付きデータと事前トレーニング用のラベルなしテキストの両方が不足しているため、低リソース言語への適用性は依然として限られています。
この論文では、低リソース言語データの英語翻訳を使用するようにモデルを微調整するフレームワークである TransFusion を提案し、アノテーション フュージョンを通じてより正確な予測を可能にします。
TransFusion に基づいて、IE タスク用に言語間で命令調整された LLM である GoLLIE-TF を導入します。これは、高リソース言語と低リソース言語の間のパフォーマンスのギャップを埋めるように設計されています。
50 言語にわたる 12 の多言語 IE データセットにわたる実験では、GoLLIE-TF が基本モデルよりも優れたゼロショット言語間転送を実現することが実証されました。
さらに、プロンプトアプローチを使用して GPT-4 (+5 F1) などの独自のモデルに適用したり、デコーダーのみ (+14
F1) およびエンコーダのみ (+13 F1) アーキテクチャ。

要約(オリジナル)

Large language models (LLMs) combined with instruction tuning have shown significant progress in information extraction (IE) tasks, exhibiting strong generalization capabilities to unseen datasets by following annotation guidelines. However, their applicability to low-resource languages remains limited due to lack of both labeled data for fine-tuning, and unlabeled text for pre-training. In this paper, we propose TransFusion, a framework in which models are fine-tuned to use English translations of low-resource language data, enabling more precise predictions through annotation fusion. Based on TransFusion, we introduce GoLLIE-TF, a cross-lingual instruction-tuned LLM for IE tasks, designed to close the performance gap between high and low-resource languages. Our experiments across twelve multilingual IE datasets spanning 50 languages demonstrate that GoLLIE-TF achieves better zero-shot cross-lingual transfer over the base model. In addition, we show that TransFusion significantly improves low-resource language named entity recognition when applied to proprietary models such as GPT-4 (+5 F1) with a prompting approach, or fine-tuning different language models including decoder-only (+14 F1) and encoder-only (+13 F1) architectures.

arxiv情報

著者 Yang Chen,Vedaant Shah,Alan Ritter
発行日 2024-06-20 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク