Retrieval-Augmented Code Generation for Universal Information Extraction

要約

情報抽出 (IE) は、自然言語テキストから構造的な知識 (エンティティ、関係、イベントなど) を抽出することを目的としています。これは、タスク固有のスキーマと複雑なテキスト表現により、既存の方法に課題をもたらします。
コードは、形式化された言語の典型として、さまざまなスキーマに基づいて普遍的な方法で構造的知識を記述することができます。
一方、コードとテキストの両方でトレーニングされたラージ言語モデル (LLM) は、テキストをコードに変換する強力な機能を実証しており、IE タスクに実行可能なソリューションを提供します。
したがって、この論文では、IE タスク用に、Code4UIE と呼ばれる、LLM に基づく汎用検索拡張コード生成フレームワークを提案します。
具体的には、Code4UIE は Python クラスを採用して、さまざまな構造的知識のタスク固有のスキーマを普遍的な方法で定義します。
そうすることで、これらのスキーマに基づく知識の抽出を、テキスト内の情報を使用して事前定義された Python クラスをインスタンス化するコードの生成に変換できます。
これらのコードをより正確に生成するために、Code4UIE はコンテキスト内学習メカニズムを採用し、サンプルを使用して LLM に指示します。
さまざまなタスクに適切な例を取得するために、Code4UIE は、指定されたテキストに意味的に類似した例を取得できるいくつかの例の取得戦略を検討します。
9 つのデータセットにわたる 5 つの代表的な IE タスクに関する広範な実験により、Code4UIE フレームワークの有効性が実証されました。

要約(オリジナル)

Information Extraction (IE) aims to extract structural knowledge (e.g., entities, relations, events) from natural language texts, which brings challenges to existing methods due to task-specific schemas and complex text expressions. Code, as a typical kind of formalized language, is capable of describing structural knowledge under various schemas in a universal way. On the other hand, Large Language Models (LLMs) trained on both codes and texts have demonstrated powerful capabilities of transforming texts into codes, which provides a feasible solution to IE tasks. Therefore, in this paper, we propose a universal retrieval-augmented code generation framework based on LLMs, called Code4UIE, for IE tasks. Specifically, Code4UIE adopts Python classes to define task-specific schemas of various structural knowledge in a universal way. By so doing, extracting knowledge under these schemas can be transformed into generating codes that instantiate the predefined Python classes with the information in texts. To generate these codes more precisely, Code4UIE adopts the in-context learning mechanism to instruct LLMs with examples. In order to obtain appropriate examples for different tasks, Code4UIE explores several example retrieval strategies, which can retrieve examples semantically similar to the given texts. Extensive experiments on five representative IE tasks across nine datasets demonstrate the effectiveness of the Code4UIE framework.

arxiv情報

著者 Yucan Guo,Zixuan Li,Xiaolong Jin,Yantao Liu,Yutao Zeng,Wenxuan Liu,Xiang Li,Pan Yang,Long Bai,Jiafeng Guo,Xueqi Cheng
発行日 2023-11-06 09:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク