Unified Text Structuralization with Instruction-tuned Language Models

要約

テキストの構造化は、自然言語処理 (NLP) の重要な分野の 1 つであり、情報抽出 (IE) と構造形式化から成ります。
ただし、テキストの構造化に関する現在の研究では、さまざまなドメインや言語から手動で注釈を付けた高品質のデータセットが不足しており、専門的な専門知識が必要です。
さらに、ほとんどの IE メソッドは、エンティティ、関係、イベントなどの特定のタイプの構造化データ用に設計されているため、他のメソッドに一般化することは困難です。
この作業では、テキストからさまざまな構造を抽出するように大規模言語モデル (LLM) に指示するためのシンプルで効率的なアプローチを提案します。
より具体的には、テキストを LLM に入力する前に、目的の IE タスクと構造タイプをそれぞれ示す接頭辞と接尾辞の命令を追加します。
2 つの LLM での実験では、このアプローチにより、言語モデルがさまざまな言語と知識のデータセットで他の最先端の方法と同等のパフォーマンスを発揮できるようになり、命令の内容を変更することで他の IE サブタスクに一般化できることが示されています。
.
私たちのアプローチのもう 1 つの利点は、研究者がソースの少ないドメイン固有のシナリオ (金融や法律の分野など) でデータセットを低コストで構築するのに役立つことです。

要約(オリジナル)

Text structuralization is one of the important fields of natural language processing (NLP) consists of information extraction (IE) and structure formalization. However, current studies of text structuralization suffer from a shortage of manually annotated high-quality datasets from different domains and languages, which require specialized professional knowledge. In addition, most IE methods are designed for a specific type of structured data, e.g., entities, relations, and events, making them hard to generalize to others. In this work, we propose a simple and efficient approach to instruct large language model (LLM) to extract a variety of structures from texts. More concretely, we add a prefix and a suffix instruction to indicate the desired IE task and structure type, respectively, before feeding the text into a LLM. Experiments on two LLMs show that this approach can enable language models to perform comparable with other state-of-the-art methods on datasets of a variety of languages and knowledge, and can generalize to other IE sub-tasks via changing the content of instruction. Another benefit of our approach is that it can help researchers to build datasets in low-source and domain-specific scenarios, e.g., fields in finance and law, with low cost.

arxiv情報

著者 Xuanfan Ni,Piji Li,Huayang Li
発行日 2023-03-30 13:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク