Assessing the quality of information extraction

要約

大規模言語モデルの進歩により、非構造化および半構造化データ ソースからの情報抽出の効率が著しく向上しました。
これらのテクノロジーがさまざまなアプリケーションに不可欠になるにつれ、情報抽出の品質に関する客観的な尺度を確立することが不可欠になります。
ただし、ラベル付きデータが不足しているため、この取り組みには大きな課題が生じています。
このペーパーでは、情報抽出の品質とその完全性を評価するための自動フレームワークを紹介します。
このフレームワークは、エンティティとそのプロパティの形式での情報抽出に焦点を当てています。
大規模な言語モデルの入出力サイズ制限を処理し、情報を反復的に抽出する際のパフォーマンスを分析する方法について説明します。
最後に、抽出の品質を評価するためのメトリクスを紹介し、メトリクスを解釈する方法について広範な議論を提供します。

要約(オリジナル)

Advances in large language models have notably enhanced the efficiency of information extraction from unstructured and semi-structured data sources. As these technologies become integral to various applications, establishing an objective measure for the quality of information extraction becomes imperative. However, the scarcity of labeled data presents significant challenges to this endeavor. In this paper, we introduce an automatic framework to assess the quality of the information extraction and its completeness. The framework focuses on information extraction in the form of entity and its properties. We discuss how to handle the input/output size limitations of the large language models and analyze their performance when iteratively extracting the information. Finally, we introduce metrics to evaluate the quality of the extraction and provide an extensive discussion on how to interpret the metrics.

arxiv情報

著者 Filip Seitl,Tomáš Kovářík,Soheyla Mirshahi,Jan Kryštůfek,Rastislav Dujava,Matúš Ondreička,Herbert Ullrich,Petr Gronat
発行日 2024-04-05 12:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク