Schema-Driven Information Extraction from Heterogeneous Tables

要約

この論文では、大規模な言語モデルがテーブルからのコスト効率の高い情報抽出をサポートできるかどうかという問題を検討します。
スキーマ駆動型の情報抽出を導入します。これは、人間が作成したスキーマに従って表形式のデータを構造化レコードに変換する新しいタスクです。
このタスクに関するさまざまな LLM の機能を評価するために、機械学習論文、化学文献、材料科学ジャーナル、Web ページという 4 つの多様なドメインのテーブルで構成されるベンチマークを開発します。
ベンチマークとともに、命令調整された LLM に基づく抽出方法を紹介します。
私たちのアプローチは、タスク固有のラベルなしで競争力のあるパフォーマンスを示し、優れたコスト効率を維持しながら、74.2 ~ 96.1 の範囲の F1 スコアを達成します。
さらに、マルチモーダル モデルを使用した画像テーブルからの抽出だけでなく、API への依存を軽減するためにコンパクトなテーブル抽出モデルを抽出する可能性も検証します。
ベンチマークを開発し、独自のモデルを使用してこのタスクの実現可能性を実証することで、オープンソースのスキーマ駆動型 IE モデルに関する将来の作業をサポートすることを目指しています。

要約(オリジナル)

In this paper, we explore the question of whether large language models can support cost-efficient information extraction from tables. We introduce schema-driven information extraction, a new task that transforms tabular data into structured records following a human-authored schema. To assess various LLM’s capabilities on this task, we develop a benchmark composed of tables from four diverse domains: machine learning papers, chemistry literature, material science journals, and webpages. Alongside the benchmark, we present an extraction method based on instruction-tuned LLMs. Our approach shows competitive performance without task-specific labels, achieving F1 scores ranging from 74.2 to 96.1, while maintaining great cost efficiency. Moreover, we validate the possibility of distilling compact table-extraction models to reduce API reliance, as well as extraction from image tables using multi-modal models. By developing a benchmark and demonstrating the feasibility of this task using proprietary models, we aim to support future work on open-source schema-driven IE models.

arxiv情報

著者 Fan Bai,Junmo Kang,Gabriel Stanovsky,Dayne Freitag,Alan Ritter
発行日 2023-11-15 18:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク