Text2Analysis: A Benchmark of Table Question Answering with Advanced Data Analysis and Unclear Queries

要約

表形式のデータ分析はさまざまな分野で重要であり、この分野では大規模な言語モデルが有望です。
ただし、現在の研究は主に Text2SQL や TableQA などの基本的なタスクに焦点を当てており、予測やチャート生成などの高度な分析は無視されています。
このギャップに対処するために、SQL 互換操作を超え、より詳細な分析を必要とする高度な分析タスクを組み込んだ Text2Analysis ベンチマークを開発しました。
また、大規模な言語モデルの機能を利用してデータの質と量を向上させる、5 つの革新的で効果的なアノテーション方法も開発しています。
さらに、モデルがそのような課題をどの程度理解し、対処できるかをテストするために、実際のユーザーの質問に似た不明瞭なクエリを含めます。
最後に、347 個のテーブルを含む 2249 個のクエリと結果のペアを収集します。
私たちは 3 つの異なる指標を使用して 5 つの最先端のモデルを評価しました。その結果は、私たちのベンチマークが表形式データ分析の分野で大きな課題をもたらし、より高度な研究の機会への道を開くことを示しています。

要約(オリジナル)

Tabular data analysis is crucial in various fields, and large language models show promise in this area. However, current research mostly focuses on rudimentary tasks like Text2SQL and TableQA, neglecting advanced analysis like forecasting and chart generation. To address this gap, we developed the Text2Analysis benchmark, incorporating advanced analysis tasks that go beyond the SQL-compatible operations and require more in-depth analysis. We also develop five innovative and effective annotation methods, harnessing the capabilities of large language models to enhance data quality and quantity. Additionally, we include unclear queries that resemble real-world user questions to test how well models can understand and tackle such challenges. Finally, we collect 2249 query-result pairs with 347 tables. We evaluate five state-of-the-art models using three different metrics and the results show that our benchmark presents introduces considerable challenge in the field of tabular data analysis, paving the way for more advanced research opportunities.

arxiv情報

著者 Xinyi He,Mengyu Zhou,Xinrun Xu,Xiaojun Ma,Rui Ding,Lun Du,Yan Gao,Ran Jia,Xu Chen,Shi Han,Zejian Yuan,Dongmei Zhang
発行日 2023-12-21 08:50:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク