gTBLS: Generating Tables from Text by Conditional Question Answering

要約

大きくて構造化されていないテキストを、表などの構造化された凝縮された形式に抽出することは、未解決の研究課題です。
テーブルを自動生成する際の主な課題の 1 つは、その構文の妥当性を確保することです。
従来のアプローチでは、特定の行および列ヘッダーに注意を向けるための追加パラメータを Transformer のアテンション メカニズムに組み込むことで、この課題に対処していました。
この 1 段階の方法とは対照的に、このホワイト ペーパーでは、生成テーブル (gTBLS) と呼ばれる 2 段階のアプローチを紹介します。
最初の段階では、テキストからテーブル構造 (行ヘッダーと列ヘッダー) を推測します。
第 2 段階では、これらのヘッダーを使用して質問を作成し、それらに答えるために因果言語モデルを微調整します。
さらに、gTBLS アプローチは、ゼロショット構成での事前トレーニング済みの大規模言語モデルの利用に適しており、微調整が不可能な状況でのテーブル生成のソリューションを提供します。
gTBLS は、テーブル構築タスクで BERTScore が最大 10%、E2E、WikiTableText、WikiBio、および RotoWire データセットのテーブル コンテンツ生成タスクで最大 20% まで、従来のアプローチを改善します。

要約(オリジナル)

Distilling large, unstructured text into a structured, condensed form such as tables is an open research problem. One of the primary challenges in automatically generating tables is ensuring their syntactic validity. Prior approaches address this challenge by including additional parameters in the Transformer’s attention mechanism to attend to specific rows and column headers. In contrast to this single-stage method, this paper presents a two-stage approach called Generative Tables (gTBLS). The first stage infers table structure (row and column headers) from the text. The second stage formulates questions using these headers and fine-tunes a causal language model to answer them. Furthermore, the gTBLS approach is amenable to the utilization of pre-trained Large Language Models in a zero-shot configuration, presenting a solution for table generation in situations where fine-tuning is not feasible. gTBLS improves prior approaches by up to 10% in BERTScore on the table construction task and up to 20% on the table content generation task of the E2E, WikiTableText, WikiBio, and RotoWire datasets.

arxiv情報

著者 Anirudh Sundar,Christopher Richardson,Larry Heck
発行日 2024-03-21 15:04:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク