要約
表は、構造化された関係データを表現するための基本的なフォーマットである。現在の言語モデル(LM)は多くのテキストベースのタスクに優れているが、構造化された性質など、表データの複雑な特徴のために、表理解の課題にはまだ直面している。本論文では、表理解を向上させるためにLMを強化することを目的とする。我々は4つの重要な課題を特定する:1)対象データの特定が困難、2)表の意味論における欠陥、3)テキスト推論における数値的不正確さ、4)記号推論における意味的柔軟性の欠如。これらの問題に対処するために、我々はこれらの障害を克服するための複数の解決策を統合したレシピと包括的なフレームワークであるTableMasterを提案する。TableMasterはまず、関連する表コンテンツを抽出し、意味コンテクストを充実させて言語化する。さらに、テキスト推論と記号推論の間を動的に調整する柔軟なアプローチである適応型推論を導入し、各クエリに合わせて推論プロセスを調整する。広範な分析と実験により、我々の発見とTableMasterの有効性が実証された。WikiTQデータセットにおいて、TableMasterはGPT-4o-miniを使用して78.13%の精度を達成し、既存のベースラインを超えた。
要約(オリジナル)
Tables serve as a fundamental format for representing structured relational data. While current language models (LMs) excel at many text-based tasks, they still face challenges in table understanding due to the complex characteristics of tabular data, such as their structured nature. In this paper, we aim to enhance LMs for improved table understanding. We identify four key challenges: 1) difficulty in locating target data, 2) deficiency in table semantics, 3) numerical inaccuracies in textual reasoning, and 4) semantic inflexibility in symbolic reasoning. To address these issues, we propose TableMaster, a recipe and comprehensive framework that integrates multiple solutions to overcome these obstacles. TableMaster first extracts relevant table content and verbalizes it with enriched semantic context. Additionally, we introduce adaptive reasoning, a flexible approach that dynamically adjusts between textual and symbolic reasoning, tailoring the reasoning process to each query. Extensive analyses and experiments demonstrate our findings and the effectiveness of TableMaster. On the WikiTQ dataset, TableMaster achieves an accuracy of 78.13% using GPT-4o-mini, surpassing existing baselines.
arxiv情報
| 著者 | Lang Cao,Hanbing Liu |
| 発行日 | 2025-05-02 12:16:39+00:00 |
| arxivサイト | arxiv_id(pdf) |