FREB-TQA: A Fine-Grained Robustness Evaluation Benchmark for Table Question Answering

要約

Table Question Answering (TQA) は、表形式のデータに基づいて質問に対する回答を作成することを目的としています。
これまでの研究では、TQA モデルには堅牢性が欠けていることが示されていますが、この問題の根本的な原因と性質の理解は依然としてほとんど不明であり、堅牢な TQA システムの開発に重大な障害となっています。
この論文では、TQA システムの堅牢性をきめ細かく評価するための 3 つの主要な要望を形式化します。
(i) テーブル構造の変更に関係なく質問に回答し、(ii) バイアスではなく関連するセルの内容に基づいて回答し、(iii) 堅牢な数値推論能力を実証する必要があります。
これらの側面を調査するために、私たちは英語で新しい TQA 評価ベンチマークを作成し、公開します。
私たちの広範な実験分析により、調査された最先端の TQA システムのどれも、これら 3 つの側面において一貫して優れているものがないことが明らかになりました。
私たちのベンチマークは、TQA システムの動作を監視するための重要な手段であり、堅牢な TQA システムの開発への道を開きます。
私たちはベンチマークを公開します。

要約(オリジナル)

Table Question Answering (TQA) aims at composing an answer to a question based on tabular data. While prior research has shown that TQA models lack robustness, understanding the underlying cause and nature of this issue remains predominantly unclear, posing a significant obstacle to the development of robust TQA systems. In this paper, we formalize three major desiderata for a fine-grained evaluation of robustness of TQA systems. They should (i) answer questions regardless of alterations in table structure, (ii) base their responses on the content of relevant cells rather than on biases, and (iii) demonstrate robust numerical reasoning capabilities. To investigate these aspects, we create and publish a novel TQA evaluation benchmark in English. Our extensive experimental analysis reveals that none of the examined state-of-the-art TQA systems consistently excels in these three aspects. Our benchmark is a crucial instrument for monitoring the behavior of TQA systems and paves the way for the development of robust TQA systems. We release our benchmark publicly.

arxiv情報

著者 Wei Zhou,Mohsen Mesgar,Heike Adel,Annemarie Friedrich
発行日 2024-04-29 10:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク