要約
大規模な言語モデル(LLMS)の急速な進歩により、複雑な表形式データを処理する能力を評価するための挑戦的なベンチマークの必要性が高まっています。
ただし、既存のベンチマークは、時代遅れのデータセットアップに基づいているか、単純でフラットなテーブル構造のみに焦点を当てています。
このホワイトペーパーでは、LATEX、HTML、PNGを含む複雑な表形式データのさまざまな入力形式で、LLMSとマルチモーダルLLMS(MLLMS)の両方のパフォーマンスを評価するために設計された包括的なベンチマークであるRealHitbenchを紹介します。
RealHitbenchには、幅広いタスクタイプにまたがる複雑な構造を持つテーブルの多様なコレクションも含まれています。
25の最先端のLLMを使用した実験結果は、RealHitbenchが実際に挑戦的なベンチマークであることを示しています。
さらに、階層ヘッダーを樹木構造に整理するツリーベースのパイプラインであるTreethinkerも開発し、表階層のLLMSの認識を改善することの重要性を検証します。
私たちの仕事が、表形式のデータ推論とより堅牢なモデルの開発に関するさらなる研究を刺激することを願っています。
コードとデータは、https://github.com/cspzyy/realhitbenchで入手できます。
要約(オリジナル)
With the rapid advancement of Large Language Models (LLMs), there is an increasing need for challenging benchmarks to evaluate their capabilities in handling complex tabular data. However, existing benchmarks are either based on outdated data setups or focus solely on simple, flat table structures. In this paper, we introduce RealHiTBench, a comprehensive benchmark designed to evaluate the performance of both LLMs and Multimodal LLMs (MLLMs) across a variety of input formats for complex tabular data, including LaTeX, HTML, and PNG. RealHiTBench also includes a diverse collection of tables with intricate structures, spanning a wide range of task types. Our experimental results, using 25 state-of-the-art LLMs, demonstrate that RealHiTBench is indeed a challenging benchmark. Moreover, we also develop TreeThinker, a tree-based pipeline that organizes hierarchical headers into a tree structure for enhanced tabular reasoning, validating the importance of improving LLMs’ perception of table hierarchies. We hope that our work will inspire further research on tabular data reasoning and the development of more robust models. The code and data are available at https://github.com/cspzyy/RealHiTBench.
arxiv情報
著者 | Pengzuo Wu,Yuhang Yang,Guangcheng Zhu,Chao Ye,Hong Gu,Xu Lu,Ruixuan Xiao,Bowen Bao,Yijing He,Liangyu Zha,Wentao Ye,Junbo Zhao,Haobo Wang |
発行日 | 2025-06-16 12:19:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google