GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study

要約

大規模言語モデル (LLM) は、自然言語 (NL) 関連のタスクを解決するための少数ショット推論として魅力的になってきています。
ただし、LLM がテーブルなどの構造化データをどの程度理解しているかについては、まだ学ぶべきことがたくさんあります。
シリアル化を使用してテーブルを LLM への入力として使用できることは事実ですが、LLM がそのようなデータを本当に理解できるかどうかを調査する包括的な研究は不足しています。
このペーパーでは、LLM の構造理解能力 (SUC) を評価するベンチマークを設計することで、これを理解しようと試みます。
私たちが作成したベンチマークには 7 つのタスクが含まれており、それぞれに独自の課題 (セル検索、行取得、サイズ検出など) があります。
GPT-3.5 および GPT-4 について一連の評価を実施します。
パフォーマンスは、テーブル入力形式、コンテンツの順序、ロール プロンプト、パーティション マークなど、いくつかの入力の選択に応じて変化することがわかりました。
ベンチマーク評価を通じて得られた洞察に基づいて、LLM の内部知識を使用した臨界値/範囲の特定など、効果的な構造的プロンプトのための \textit{自己拡張} を提案します。
これらの構造的プロンプト手法を慎重に選択した入力選択肢と組み合わせると、TabFact($\uparrow2.31\%$)、HybridQA($\uparrow2.13\% など) のさまざまな表形式タスクで LLM のパフォーマンスが確実に向上します。
$)、SQA($\uparrow2.72\%$)、Feverous($\uparrow0.84\%$)、ToTTo($\uparrow5.68\%$)。
私たちは、私たちのベンチマークと提案されたプロンプト手法が、将来の研究のためのシンプルかつ一般的な選択として役立つと信じています。

要約(オリジナル)

Large language models (LLMs) are becoming attractive as few-shot reasoners to solve Natural Language (NL)-related tasks. However, there is still much to learn about how well LLMs understand structured data, such as tables. While it is true that tables can be used as inputs to LLMs with serialization, there is a lack of comprehensive studies examining whether LLMs can truly comprehend such data. In this paper, we try to understand this by designing a benchmark to evaluate the structural understanding capabilities (SUC) of LLMs. The benchmark we create includes seven tasks, each with its own unique challenges, \eg, cell lookup, row retrieval, and size detection. We conduct a series of evaluations on GPT-3.5 and GPT-4. We find that the performance varied depending on several input choices, including table input format, content order, role prompting, and partition marks. Drawing from the insights gained through the benchmark evaluations, we propose \textit{self-augmentation} for effective structural prompting, such as critical value / range identification using LLMs’ internal knowledge. When combined with carefully chosen input choices, these structural prompting methods lead to promising improvements in LLM performance on a variety of tabular tasks, \eg, TabFact($\uparrow2.31\%$), HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$), and ToTTo($\uparrow5.68\%$). We believe that our benchmark and proposed prompting methods can serve as a simple yet generic selection for future research.

arxiv情報

著者 Yuan Sui,Mengyu Zhou,Mingjie Zhou,Shi Han,Dongmei Zhang
発行日 2023-11-15 12:18:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク