要約
LLMは、自然言語処理において印象的な進歩を示しています。
しかし、それらはまだ、多様なテーブル構造、多言語データ、ドメイン固有の推論などの実際の複雑さが重要であるTableQAで重要な課題に直面しています。
既存のTableQAベンチマークは、多くの場合、単純なフラットテーブルに焦点を当てることで制限され、データの漏れに苦しんでいます。
さらに、ほとんどのベンチマークは単一言語であり、実際のアプリケーションで言語間およびドメインを横断する異なる変動をキャプチャできません。
これらの制限に対処するために、現実的なTableQAタスクでLLMを評価するために設計された新しいベンチマークであるTableValを紹介します。
具体的には、TableValには、4つのドメイン(政府、財務、学界、および業界レポートを含む)から収集されたさまざまな構造(簡潔な階層、ネストされたテーブルなど)を持つテーブルが含まれています。
その上、Tablevalは、単純化された中国語、伝統的な中国語、英語のテーブルを備えた言語間シナリオを特徴としています。
データリークのリスクを最小限に抑えるために、最近の現実世界のドキュメントからすべてのデータを収集します。
既存のTableQAメトリックがセマンティックの精度をキャプチャできないことを考慮すると、サブ質問レベルでのモデル応答と参照回答のアライメントを評価する新しい評価フレームワークであるシートをさらに提案します。
実験結果は、座席が人間の判断と高い一致を達成することを示しています。
Tablevalでの広範な実験により、これらの複雑で実世界のテーブルQAタスクを処理する最先端のLLMが能力を備えていることが重要であることが明らかになり、将来の改善の洞察を提供します。
ここでデータセットをご覧ください:https://github.com/wenge-research/tableval。
要約(オリジナル)
LLMs have shown impressive progress in natural language processing. However, they still face significant challenges in TableQA, where real-world complexities such as diverse table structures, multilingual data, and domain-specific reasoning are crucial. Existing TableQA benchmarks are often limited by their focus on simple flat tables and suffer from data leakage. Furthermore, most benchmarks are monolingual and fail to capture the cross-lingual and cross-domain variability in practical applications. To address these limitations, we introduce TableEval, a new benchmark designed to evaluate LLMs on realistic TableQA tasks. Specifically, TableEval includes tables with various structures (such as concise, hierarchical, and nested tables) collected from four domains (including government, finance, academia, and industry reports). Besides, TableEval features cross-lingual scenarios with tables in Simplified Chinese, Traditional Chinese, and English. To minimize the risk of data leakage, we collect all data from recent real-world documents. Considering that existing TableQA metrics fail to capture semantic accuracy, we further propose SEAT, a new evaluation framework that assesses the alignment between model responses and reference answers at the sub-question level. Experimental results have shown that SEAT achieves high agreement with human judgment. Extensive experiments on TableEval reveal critical gaps in the ability of state-of-the-art LLMs to handle these complex, real-world TableQA tasks, offering insights for future improvements. We make our dataset available here: https://github.com/wenge-research/TableEval.
arxiv情報
著者 | Junnan Zhu,Jingyi Wang,Bohan Yu,Xiaoyu Wu,Junbo Li,Lei Wang,Nan Xu |
発行日 | 2025-06-11 15:37:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google