要約
経験的証拠は、LLMが自発的な横断的整合性を示すことを示しています。
ただし、LLMはIEで有望な横断的な整合性を示していますが、言語間での重要な不均衡が続き、根本的な不足を強調しています。
これに対処するために、普遍的な情報抽出のための高度な横断的および多言語機能を備えた強力なコードLLMであるKnowCoder-Xを提案します。
まず、Pythonクラスを使用して多言語スキーマの表現を標準化し、異なる言語で一貫したオントロジーを確保します。
次に、言語間のIEは、統一されたコード生成タスクとして策定されます。
第二に、提案した翻訳されたインスタンス予測タスクでのIE横断的アライメント命令のチューニングを通じて、モデルの横断的移動性を強化します。
この段階では、257kのサンプルを備えた高品質で多様なバイリンガルIEパラレルデータセットを構築します。これは、堅牢な3段階のパイプラインによって合成され、品質を確保するための手動注釈を備えた堅牢な3段階のパイプラインによって合成されます。
29の目に見えない言語でのトレーニングがなければ、KnowCoder-XはChatGPTを30.17 \%$とSOTA $ 20.03 \%$で上回り、それによって優れた横断的IE能力を実証します。
さまざまな設定に基づく64のIEベンチマークに関する包括的な評価は、ConkCoder-XがIEのアライメントを強化することにより、言語間の移転を大幅に強化することを示しています。
コードとデータセットは、https://github.com/ict-goknow/knowcoderで入手できます
要約(オリジナル)
Empirical evidence indicates that LLMs exhibit spontaneous cross-lingual alignment. However, although LLMs show promising cross-lingual alignment in IE, a significant imbalance across languages persists, highlighting an underlying deficiency. To address this, we propose KnowCoder-X, a powerful code LLM with advanced cross-lingual and multilingual capabilities for universal information extraction. Firstly, it standardizes the representation of multilingual schemas using Python classes, ensuring a consistent ontology across different languages. Then, IE across languages is formulated as a unified code generation task. Secondly, we enhance the model’s cross-lingual transferability through IE cross-lingual alignment instruction tuning on a translated instance prediction task we proposed. During this phase, we also construct a high-quality and diverse bilingual IE parallel dataset with 257k samples, called ParallelNER, synthesized by our proposed robust three-stage pipeline, with manual annotation to ensure quality. Although without training in 29 unseen languages, KnowCoder-X surpasses ChatGPT by $30.17\%$ and SoTA by $20.03\%$, thereby demonstrating superior cross-lingual IE capabilities. Comprehensive evaluations on 64 IE benchmarks in Chinese and English under various settings demonstrate that KnowCoder-X significantly enhances cross-lingual IE transfer through boosting the IE alignment. Our code and dataset are available at: https://github.com/ICT-GoKnow/KnowCoder
arxiv情報
著者 | Yuxin Zuo,Wenxuan Jiang,Wenxuan Liu,Zixuan Li,Long Bai,Hanbin Wang,Yutao Zeng,Xiaolong Jin,Jiafeng Guo,Xueqi Cheng |
発行日 | 2025-04-08 16:16:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google