Schema-Driven Information Extraction from Heterogeneous Tables

要約

このペーパーでは、言語モデル (LLM) が複雑なテーブルからのコスト効率の高い情報抽出をサポートできるかどうかという問題を検討します。
スキーマ駆動型の情報抽出を導入します。これは、LLM を使用して、人間が作成したスキーマに従って表形式データを構造化レコードに変換する新しいタスクです。
このタスクに関するさまざまな LLM の機能を評価するために、機械学習論文、化学テーブル、Web ページという 3 つの多様なドメインのテーブルで構成されるベンチマークを開発します。
ベンチマークとともに、命令調整 LLM に基づくテーブル抽出手法である InstrucTE を紹介します。
この方法では、人間が構築した抽出スキーマのみが必要で、エラー回復戦略が組み込まれています。
特に、InstrucTE はタスク固有のラベルなしで競争力のあるパフォーマンスを示し、72.3 ~ 95.7 の範囲の F1 スコアを達成しています。
さらに、抽出コストを最小限に抑え、API への依存を減らすために、よりコンパクトなテーブル抽出モデルを抽出する実現可能性を検証します。
この研究は、コスト効率の高いテーブル抽出のための命令追従モデルの将来の開発への道を切り開きます。

要約(オリジナル)

In this paper, we explore the question of whether language models (LLMs) can support cost-efficient information extraction from complex tables. We introduce schema-driven information extraction, a new task that uses LLMs to transform tabular data into structured records following a human-authored schema. To assess various LLM’s capabilities on this task, we develop a benchmark composed of tables from three diverse domains: machine learning papers, chemistry tables, and webpages. Accompanying the benchmark, we present InstrucTE, a table extraction method based on instruction-tuned LLMs. This method necessitates only a human-constructed extraction schema, and incorporates an error-recovery strategy. Notably, InstrucTE demonstrates competitive performance without task-specific labels, achieving an F1 score ranging from 72.3 to 95.7. Moreover, we validate the feasibility of distilling more compact table extraction models to minimize extraction costs and reduce API reliance. This study paves the way for the future development of instruction-following models for cost-efficient table extraction.

arxiv情報

著者 Fan Bai,Junmo Kang,Gabriel Stanovsky,Dayne Freitag,Alan Ritter
発行日 2023-05-23 17:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク