AlignXIE: Improving Multilingual Information Extraction by Cross-Lingual Alignment

要約

経験的証拠は、LLM が自発的に異言語間アライメントを示すことを示唆しています。
私たちの調査結果は、LLM も情報抽出において有望な言語間連携を示しているものの、言語間で大きな不均衡が依然として存在し、IE 連携の根本的な欠陥を明らかにしていることを示唆しています。
この問題に対処するために、私たちは、2 つの戦略を通じて言語間の IE 調整を大幅に強化する強力なコードベースの LLM である AlignXIE を提案します。
まず、AlignXIE は、さまざまな言語、特に英語以外の言語にまたがる IE をコード生成タスクとして定式化し、Python クラスを使用してさまざまなスキーマの表現を標準化し、さまざまな言語で同じオントロジーの一貫性を確保し、スキーマを調整します。
2 番目に、抽出プロセスを調整するために、この論文で提案されている翻訳インスタンス予測タスクを介した IE 言語間調整フェーズが組み込まれています。ParallelNER は、私たちが提案する LLM ベースの IE 用自動パイプラインによって生成された 257,190 サンプルの IE バイリンガル並列データセットです。
品質を確保するために手動で注釈を付けた並列データ構築。
最終的には、多言語 IE 命令のチューニングを通じて AlignXIE を取得します。
未知の 9 言語のトレーニングを受けていませんが、AlignXIE は ChatGPT を $30.17\%$ 上回り、SoTA を $20.03\%$ 上回り、優れたクロスリンガル IE 機能を実証しています。
さまざまな設定下で中国語と英語の 63 の IE ベンチマークを総合的に評価したところ、AlignXIE が IE の連携を強化することで、言語間および多言語の IE を大幅に強化することが実証されました。

要約(オリジナル)

Empirical evidence suggests that LLMs exhibit spontaneous cross-lingual alignment. Our findings suggest that although LLMs also demonstrate promising cross-lingual alignment in Information Extraction, there remains significant imbalance across languages, revealing an underlying deficiency in the IE alignment. To address this issue, we propose AlignXIE, a powerful code-based LLM that significantly enhances cross-lingual IE alignment through two strategies. Firstly, AlignXIE formulates IE across different languages, especially non-English ones, as code generation tasks, standardizing the representation of various schemas using Python classes to ensure consistency of the same ontology in different languages and align the schema. Secondly, it incorporates an IE cross-lingual alignment phase through a translated instance prediction task proposed in this paper to align the extraction process, utilizing ParallelNER, an IE bilingual parallel dataset with 257,190 samples, generated by our proposed LLM-based automatic pipeline for IE parallel data construction, with manual annotation to ensure quality. Ultimately, we obtain AlignXIE through multilingual IE instruction tuning. Although without training in 9 unseen languages, AlignXIE surpasses ChatGPT by $30.17\%$ and SoTA by $20.03\%$, thereby demonstrating superior cross-lingual IE capabilities. Comprehensive evaluations on 63 IE benchmarks in Chinese and English under various settings, demonstrate that AlignXIE significantly enhances cross-lingual and multilingual IE through boosting the IE alignment.

arxiv情報

著者 Yuxin Zuo,Wenxuan Jiang,Wenxuan Liu,Zixuan Li,Long Bai,Hanbin Wang,Yutao Zeng,Xiaolong Jin,Jiafeng Guo,Xueqi Cheng
発行日 2024-11-07 15:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク