要約
テンプレートに基づいて文書から情報を抽出することを学習することは、重要ですが困難な作業です。
従来のテンプレートベースの IE アプローチは、ドメイン テンプレートを事前に知っていることを前提としていました。
ただし、現実の IE には事前定義されたスキーマはなく、実行するにつれて理解される現象です。
現実世界の設定でテンプレートを迅速にブートストラップするには、ゼロまたは最小限の監視でドキュメントからテンプレート スロットを誘導する必要があります。
質問応答の目的は情報抽出の目的と交差するため、自動質問生成を使用してドキュメントからテンプレート スロットを誘導し、人間によるオンザフライの少量のプロキシ (InteractiveIE と呼ばれる) がどのようにさらに効果を高めることができるかを調査します。
パフォーマンスを向上させます。
トレーニング データの取得に費用がかかる生物医学文書や法的文書に関する広範な実験により、InteractiveIE を使用した場合、AI のみのベースラインよりもパフォーマンスが向上する心強い傾向が明らかになりました。
要約(オリジナル)
Learning template based information extraction from documents is a crucial yet difficult task. Prior template-based IE approaches assume foreknowledge of the domain templates; however, real-world IE do not have pre-defined schemas and it is a figure-out-as you go phenomena. To quickly bootstrap templates in a real-world setting, we need to induce template slots from documents with zero or minimal supervision. Since the purpose of question answering intersect with the goal of information extraction, we use automatic question generation to induce template slots from the documents and investigate how a tiny amount of a proxy human-supervision on-the-fly (termed as InteractiveIE) can further boost the performance. Extensive experiments on biomedical and legal documents, where obtaining training data is expensive, reveal encouraging trends of performance improvement using InteractiveIE over AI-only baseline.
arxiv情報
著者 | Ishani Mondal,Michelle Yuan,Anandhavelu N,Aparna Garimella,Francis Ferraro,Andrew Blair-Stanek,Benjamin Van Durme,Jordan Boyd-Graber |
発行日 | 2023-11-17 17:31:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google