Instruct and Extract: Instruction Tuning for On-Demand Information Extraction

要約

命令に従う機能を備えた大規模な言語モデルにより、より幅広いユーザー グループに門戸が開かれます。
ただし、自然言語処理における古典的なタスクである情報抽出に関しては、ほとんどのタスク固有システムは、専門家以外のユーザー向けのロングテール アドホック抽出ユース ケースにうまく対応できません。
これに対処するために、実世界のユーザーのパーソナライズされた要求を満たすための、オンデマンド情報抽出と呼ばれる新しいパラダイムを提案します。
私たちのタスクは、指示に従って、関連するテキストから目的のコンテンツを抽出し、それを構造化された表形式で表示することを目的としています。
テーブルのヘッダーは、ユーザーが指定することも、モデルによってコンテキストに基づいて推測することもできます。
この新興分野の研究を促進するために、自動生成されたトレーニング データと人間による注釈付きテスト セットの両方を含む InstructIE というベンチマークを紹介します。
InstructIE を基にして、オンデマンド情報エクストラクター (ODIE) をさらに開発します。
ベンチマークの包括的な評価により、ODIE が同様の規模の既存のオープンソース モデルよりも大幅に優れていることが明らかになりました。
私たちのコードとデータセットは https://github.com/yzjiao/On-Demand-IE でリリースされています。

要約(オリジナル)

Large language models with instruction-following capabilities open the door to a wider group of users. However, when it comes to information extraction – a classic task in natural language processing – most task-specific systems cannot align well with long-tail ad hoc extraction use cases for non-expert users. To address this, we propose a novel paradigm, termed On-Demand Information Extraction, to fulfill the personalized demands of real-world users. Our task aims to follow the instructions to extract the desired content from the associated text and present it in a structured tabular format. The table headers can either be user-specified or inferred contextually by the model. To facilitate research in this emerging area, we present a benchmark named InstructIE, inclusive of both automatically generated training data, as well as the human-annotated test set. Building on InstructIE, we further develop an On-Demand Information Extractor, ODIE. Comprehensive evaluations on our benchmark reveal that ODIE substantially outperforms the existing open-source models of similar size. Our code and dataset are released on https://github.com/yzjiao/On-Demand-IE.

arxiv情報

著者 Yizhu Jiao,Ming Zhong,Sha Li,Ruining Zhao,Siru Ouyang,Heng Ji,Jiawei Han
発行日 2023-10-24 17:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク