IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus

要約

大規模言語モデル (LLM) は、さまざまなドメインにわたって顕著な可能性を示しています。
ただし、情報抽出 (IE) ではパフォーマンスに大きな差があります。
高品質の命令データは LLM の特定の機能を強化するための重要な鍵ですが、現在の IE データセットは規模が小さく、断片化されており、標準化されたスキーマが欠けている傾向があることに注意してください。
この目的を達成するために、約 0.32 億のトークンを含む包括的なバイリンガル (英語と中国語) IE 命令コーパスである IEPile を導入します。
33 の既存の IE データセットを収集およびクリーニングして IEPile を構築し、スキーマベースの命令生成を導入して大規模なコーパスを発掘します。
LLaMA と Baichuan に関する実験結果は、IEPile を使用すると、IE の LLM のパフォーマンス、特にゼロショット汎化を向上できることを示しています。
私たちは、NLP コミュニティに貴重なサポートを提供したいと考えて、リソースと事前トレーニングされたモデルをオープンソースにしています。

要約(オリジナル)

Large Language Models (LLMs) demonstrate remarkable potential across various domains; however, they exhibit a significant performance gap in Information Extraction (IE). Note that high-quality instruction data is the vital key for enhancing the specific capabilities of LLMs, while current IE datasets tend to be small in scale, fragmented, and lack standardized schema. To this end, we introduce IEPile, a comprehensive bilingual (English and Chinese) IE instruction corpus, which contains approximately 0.32B tokens. We construct IEPile by collecting and cleaning 33 existing IE datasets, and introduce schema-based instruction generation to unearth a large-scale corpus. Experimental results on LLaMA and Baichuan demonstrate that using IEPile can enhance the performance of LLMs for IE, especially the zero-shot generalization. We open-source the resource and pre-trained models, hoping to provide valuable support to the NLP community.

arxiv情報

著者 Honghao Gui,Hongbin Ye,Lin Yuan,Ningyu Zhang,Mengshu Sun,Lei Liang,Huajun Chen
発行日 2024-02-22 17:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR, cs.LG パーマリンク