要約
大規模な言語モデルは一般的な自然言語タスクでは良好に実行できますが、その有効性は情報抽出 (IE) にとっては最適とは言えません。
最近の研究によると、主な原因は IE 命令に関する広範なデータが欠如していることです。
IE 命令の既存のデータセットは対象範囲が限られているだけでなく、構築コストも高額であることに注意してください。
この問題に対処するために、12 の多様なドメインをカバーするバイリンガル命令ベースの IE データセットである InstructIE を導入します。
私たちは、このようなデータセットの自動生成に特化したフレームワークである KG2struct を提案します。
さらに、テスト セットに手動で注釈を付けます。
実験結果は、InstructIE でトレーニングされた大規模な言語モデルは、より優れた IE 機能を取得できるだけでなく、ベースラインと比較してゼロショット パフォーマンスも向上できることを示しています。
要約(オリジナル)
Large language models can perform well on general natural language tasks, but their effectiveness is still suboptimal for information extraction (IE). Recent works indicate that the main reason lies in the lack of extensive data on IE instructions. Note that the existing datasets on IE instructions not only have limited coverage but also involve high construction costs. To address this issue, we introduce InstructIE, a bilingual instruction-based IE dataset, which covers 12 diverse domains. We propose KG2Instruction, a framework specifically for the automatic generation of such datasets. Additionally, we manually annotate the test set. Experimental results demonstrate that large language models trained with InstructIE can not only obtain better IE capabilities but also enhance zero-shot performance compared with baselines.
arxiv情報
著者 | Honghao Gui,Shuofei Qiao,Jintian Zhang,Hongbin Ye,Mengshu Sun,Lei Liang,Jeff Z. Pan,Huajun Chen,Ningyu Zhang |
発行日 | 2024-07-29 03:41:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google