InstructIE: A Bilingual Instruction-based Information Extraction Dataset

要約

大規模な言語モデルは一般的な自然言語タスクでは良好に実行できますが、その有効性は情報抽出にはまだ最適ではありません。
最近の研究では、主な理由は、情報抽出命令に関する広範なデータが不足していることにあることが示されています。
情報抽出命令に関する既存のデータセットは、対象範囲が限られているだけでなく、構築コストも高額であることに注意してください。
この問題に対処するために、12 の多様なドメインをカバーするバイリンガル命令ベースの情報抽出データセットである InstructIE を導入します。
具体的には、このようなデータセットの自動生成に特化したフレームワークである KG2struct を提案します。
実験結果は、InstructIE でトレーニングされた大規模言語モデルは、より優れた情報抽出機能を取得できるだけでなく、ベースラインと比較してゼロショット パフォーマンスも向上できることを示しています。

要約(オリジナル)

Large language models can perform well on general natural language tasks, but their effectiveness is still not optimal for information extraction. Recent works indicate that the main reason lies in the lack of extensive data on information extraction instructions. Note that the existing datasets on information extraction instructions not only have limited coverage but also involve high construction costs. To address this issue, we introduce InstructIE, a bilingual instruction-based information extraction dataset, which covers 12 diverse domains. Specifically, we propose KG2Instruction, a framework specifically for the automatic generation of such datasets. Experimental results demonstrate that large language models trained with InstructIE can not only obtain better information extraction capabilities but also enhance zero-shot performance compared with baselines.

arxiv情報

著者 Honghao Gui,Shuofei Qiao,Jintian Zhang,Hongbin Ye,Mengshu Sun,Lei Liang,Jeff Z. Pan,Huajun Chen,Ningyu Zhang
発行日 2024-04-18 16:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク