要約
従来の情報抽出 (IE) 方法論は、事前定義されたクラスと静的トレーニング パラダイムに制約されており、特に動的な世界では適応性が低下することがよくあります。
このギャップを埋めるために、この論文では、大規模言語モデル (LLM) の実質的なクロスタスク汎化機能を活用して、命令ベースの IE パラダイムを検討します。
既存の IE データセットのほとんどは、ラベル セットが過剰に冗長である傾向があり、そのため、命令を構築する際に抽出コンテンツに直接関係しない多数のラベルが含まれることになります。
この問題に取り組むために、バイリンガルのテーマ中心の IE 命令データセット (中国語と英語)、InstructIE を導入し、ラベル構造を効果的に簡素化するテーマ スキーム設計を初めて組み込みました。
さらに、このようなデータセットの自動生成用に特別に設計された、KG2struct という革新的なフレームワークを開発しました。
InstructIE に基づく実験評価により、現在のモデルは命令ベースの IE タスクに有望である一方で、潜在的な最適化の機会も出現していることが明らかになりました。
データセットは https://huggingface.co/datasets/zjunlp/InstructIE で入手できます。
要約(オリジナル)
Traditional information extraction (IE) methodologies, constrained by pre-defined classes and static training paradigms, often falter in adaptability, especially in the dynamic world. To bridge this gap, we explore an instruction-based IE paradigm in this paper, leveraging the substantial cross-task generalization capabilities of Large Language Models (LLMs). We observe that most existing IE datasets tend to be overly redundant in their label sets, which leads to the inclusion of numerous labels not directly relevant to the extraction content when constructing instructions. To tackle this issue, we introduce a bilingual theme-centric IE instruction dataset (Chinese and English), InstructIE, and for the first time, incorporate a theme scheme design that effectively simplifies the label structure. Furthermore, we develop an innovative framework named KG2Instruction, which is specifically designed for the automatic generation of such datasets. Experimental evaluations based on InstructIE reveal that while current models show promise in Instruction-based IE tasks, opportunities for their potential optimization also emerge. The dataset is available at https://huggingface.co/datasets/zjunlp/InstructIE.
arxiv情報
著者 | Honghao Gui,Shuofei Qiao,Jintian Zhang,Hongbin Ye,Mengshu Sun,Lei Liang,Huajun Chen,Ningyu Zhang |
発行日 | 2024-02-21 16:52:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google