Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training

要約

多言語 IE に対処する以前の研究の大部分は、主にソース トレーニング データとして高リソース言語を使用し、ゼロショットの言語間単一転送 (1 対 1) 設定に限定されています。
結果として、これらの作業は、できるだけ多くの言語に汎用化できる多言語 IE システムを開発するという現実的な目標に対する理解と利益をほとんど提供しません。
私たちの研究は、多様な言語セットをカバーする最近の IE コーパスの言語間マルチ転移性 (多対多転移学習) に関する詳細な分析を提供することで、このギャップを埋めることを目的としています。
具体的には、まず、単一転送のパフォーマンスと広範囲の言語ベースの距離との相関関係を特定します。
得られた洞察に基づいて、相関性が高いだけでなく、さまざまなタスクやモデル スケールにわたって堅牢な、結合された言語距離メトリックを開発できます。
次に、トレーニングと評価のプロセスに複数の言語が関与する、より一般的なゼロショット多言語転送設定を調査します。
新しく定義された距離に基づく言語クラスタリングは、データ (言語) 選択問題における最適なコストパフォーマンスのトレードオフを達成するための方向性を提供できます。
最後に、上記の言語的距離から誘導された関係を使用した敵対的トレーニングに基づいて、多言語のラベルなしデータをさらに組み込む関係転送設定が提案されています。

要約(オリジナル)

The majority of previous researches addressing multi-lingual IE are limited to zero-shot cross-lingual single-transfer (one-to-one) setting, with high-resource languages predominantly as source training data. As a result, these works provide little understanding and benefit for the realistic goal of developing a multi-lingual IE system that can generalize to as many languages as possible. Our study aims to fill this gap by providing a detailed analysis on Cross-Lingual Multi-Transferability (many-to-many transfer learning), for the recent IE corpora that cover a diverse set of languages. Specifically, we first determine the correlation between single-transfer performance and a wide range of linguistic-based distances. From the obtained insights, a combined language distance metric can be developed that is not only highly correlated but also robust across different tasks and model scales. Next, we investigate the more general zero-shot multi-lingual transfer settings where multiple languages are involved in the training and evaluation processes. Language clustering based on the newly defined distance can provide directions for achieving the optimal cost-performance trade-off in data (languages) selection problem. Finally, a relational-transfer setting is proposed to further incorporate multi-lingual unlabeled data based on adversarial training using the relation induced from the above linguistic distance.

arxiv情報

著者 Nghia Trung Ngo,Thien Huu Nguyen
発行日 2024-11-13 17:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク