要約
大規模言語モデル (LLM) は、NL 関連のタスクを解決するための少数ショット推論として魅力的になってきています。
ただし、LLM がテーブルなどの構造化データをどの程度理解しているかについては、まだ学ぶべきことがたくさんあります。
シリアル化を使用してテーブルを LLM への入力として使用できることは事実ですが、LLM がそのようなデータを本当に理解できるかどうかを検証する包括的な研究が不足しています。
このペーパーでは、LLM の構造理解能力 (SUC) を評価するベンチマークを設計することで、これを理解しようと試みます。
私たちが作成したベンチマークには 7 つのタスクが含まれており、それぞれに独自の課題 (セル検索、行取得、サイズ検出など) があります。
GPT-3 ファミリ モデル (text-davinci-003 など) に対して一連の評価を実行します。
パフォーマンスは、テーブル入力形式、コンテンツの順序、ロール プロンプト、パーティション マークなど、入力の選択肢の数に応じて変化することがわかりました。
ベンチマーク評価を通じて得られた洞察に基づいて、LLM の内部知識を使用した臨界値/範囲の特定など、効果的な構造的プロンプトのための自己拡張を提案します。
これらの構造的プロンプト手法を慎重に選択した入力選択肢と組み合わせると、TabFact($\uparrow2.31\%$)、HybridQA($\uparrow2.13\%$ など) のさまざまな表形式タスクで LLM パフォーマンスの向上が期待できます。
)、SQA($\uparrow2.72\%$)、Feverous($\uparrow0.84\%$)、ToTTo($\uparrow5.68\%$)。
私たちは、私たちのベンチマークと提案されたプロンプト手法が、将来の研究のためのシンプルかつ一般的な選択として役立つと信じています。
コードとデータは https://anonymous.4open.science/r/StructuredLLM-76F3 で公開されています。
要約(オリジナル)
Large language models (LLMs) are becoming attractive as few-shot reasoners to solve NL-related tasks. However, there is still much to be learned about how well LLMs understand structured data, such as tables. While it is true that tables can be used as inputs to LLMs with serialization, there lack comprehensive studies examining whether LLMs can truly comprehend such data. In this paper we try to understand this by designing a benchmark to evaluate structural understanding capabilities (SUC) of LLMs. The benchmark we create includes seven tasks, each with their own unique challenges, e.g,, cell lookup, row retrieval and size detection. We run a series of evaluations on GPT-3 family models (e.g., text-davinci-003). We discover that the performance varied depending on a number of input choices, including table input format, content order, role prompting and partition marks. Drawing from the insights gained through the benchmark evaluations, we then propose self-augmentation for effective structural prompting, e.g., critical value / range identification using LLMs’ internal knowledge. When combined with carefully chosen input choices, these structural prompting methods lead to promising improvements in LLM performance on a variety of tabular tasks, e.g., TabFact($\uparrow2.31\%$), HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$), and ToTTo($\uparrow5.68\%$). We believe our benchmark and proposed prompting methods can serve as a simple yet generic selection for future research. The code and data are released in https://anonymous.4open.science/r/StructuredLLM-76F3.
arxiv情報
著者 | Yuan Sui,Mengyu Zhou,Mingjie Zhou,Shi Han,Dongmei Zhang |
発行日 | 2023-05-22 14:23:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google