Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from Text

要約

生成されたテーブルが高品質であるかどうかを理解することは、自動方法を使用してドキュメントを作成または編集する際にテーブルを使用できるようにするために重要です。
この研究では、テーブルの品質評価のための既存の尺度がテーブルの全体的なセマンティクスを把握できておらず、場合によっては良いテーブルに不当にペナルティを与え、悪いテーブルに報酬を与えていることを強調します。
私たちは、最初にテーブルを自然言語のアトミック ステートメントのリストに分割し、次に含意ベースの尺度を使用してそれらをグランド トゥルース ステートメントと比較することによってテーブルのセマンティクスをキャプチャする、新しいテーブル評価戦略を提案します。
私たちのアプローチを検証するために、既存のデータセットの限られた範囲とは対照的に、さまざまなトピックと構造をカバーする 1,250 の多様な Wikipedia テーブルのテキスト説明で構成されるデータセットを厳選しました。
私たちは、教師なしおよび教師ありのテキストからテーブルへの生成方法を使用して、TabEval を既存のメトリクスと比較し、4 つのデータセットにわたるテーブルの品質に関する人間の判断との強い相関関係を実証しました。

要約(オリジナル)

Understanding whether a generated table is of good quality is important to be able to use it in creating or editing documents using automatic methods. In this work, we underline that existing measures for table quality evaluation fail to capture the overall semantics of the tables, and sometimes unfairly penalize good tables and reward bad ones. We propose TabEval, a novel table evaluation strategy that captures table semantics by first breaking down a table into a list of natural language atomic statements and then compares them with ground truth statements using entailment-based measures. To validate our approach, we curate a dataset comprising of text descriptions for 1,250 diverse Wikipedia tables, covering a range of topics and structures, in contrast to the limited scope of existing datasets. We compare TabEval with existing metrics using unsupervised and supervised text-to-table generation methods, demonstrating its stronger correlation with human judgments of table quality across four datasets.

arxiv情報

著者 Pritika Ramu,Aparna Garimella,Sambaran Bandyopadhyay
発行日 2024-09-25 16:27:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク