ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction

要約

GPT-3 や ChatGPT などの大規模言語モデル (LLM) は、いくつかのデモンストレーション例に基づく推論を含む、コンテキスト内学習を伴うさまざまな自然言語処理 (NLP) タスクで顕著な結果を示しています。
NLP タスクでは成功しているにもかかわらず、コンテキスト内学習を使用して文書情報抽出 (DIE) を実行する LLM の能力を評価する調査は行われていません。
LLM を DIE に適用すると、モダリティとタスクのギャップという 2 つの課題が生じます。
この目的を達成するために、私たちは、LLM がさまざまな種類のデモンストレーション例を使用して DIE を実行できるようにする、ICL-D3IE と呼ばれる、シンプルだが効果的なインコンテキスト学習フレームワークを提案します。
具体的には、すべてのテスト インスタンスに利益をもたらすためのハード デモンストレーションとして、ハード トレーニング ドキュメントから最も困難で明確なセグメントを抽出します。
LLM が位置関係を理解できるように、関係を説明するデモンストレーションを設計します。
簡単に回答を抽出するための書式設定のデモを紹介します。
さらに、このフレームワークは、さまざまなデモンストレーションを反復的に更新することで改善します。
広く使用されている 3 つのベンチマーク データセットでの実験では、ディストリビューション (ID) 設定とディストリビューション (ID) 設定の両方で完全なトレーニングで微調整された以前の事前トレーニング手法と比較して、ICL-D3IE フレームワークにより GPT-3/ChatGPT が優れたパフォーマンスを達成できることが実証されました。
配布外 (OOD) 設定で。

要約(オリジナル)

Large language models (LLMs), such as GPT-3 and ChatGPT, have demonstrated remarkable results in various natural language processing (NLP) tasks with in-context learning, which involves inference based on a few demonstration examples. Despite their successes in NLP tasks, no investigation has been conducted to assess the ability of LLMs to perform document information extraction (DIE) using in-context learning. Applying LLMs to DIE poses two challenges: the modality and task gap. To this end, we propose a simple but effective in-context learning framework called ICL-D3IE, which enables LLMs to perform DIE with different types of demonstration examples. Specifically, we extract the most difficult and distinct segments from hard training documents as hard demonstrations for benefiting all test instances. We design demonstrations describing relationships that enable LLMs to understand positional relationships. We introduce formatting demonstrations for easy answer extraction. Additionally, the framework improves diverse demonstrations by updating them iteratively. Our experiments on three widely used benchmark datasets demonstrate that the ICL-D3IE framework enables GPT-3/ChatGPT to achieve superior performance when compared to previous pre-trained methods fine-tuned with full training in both the in-distribution (ID) setting and in the out-of-distribution (OOD) setting.

arxiv情報

著者 Jiabang He,Lei Wang,Yi Hu,Ning Liu,Hui Liu,Xing Xu,Heng Tao Shen
発行日 2023-07-14 06:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク