要約
現在の大規模言語モデル(LLM)は、テーブル構造を理解し、テーブル質問応答(TQA)やテーブルベースの事実検証(TFV)のようなタスクに重要な、正確な数値推論を適用する能力に限界がある。このような課題に対処するため、我々はLLMと専用ツールを統合したTool-Augmented Reasoning framework for Tables (TART)を提案する。TARTには、正確なデータ表現を保証するテーブルフォーマッタ、特定の計算ツールを開発するツールメーカ、説明可能性を維持する説明ジェネレータの3つの主要コンポーネントが含まれる。また、表とツールの統合においてLLMを訓練するために特別に設計された新しいベンチマークであるTOOLTABデータセットも紹介する。我々の実験によれば、TARTはデータ処理の精度と推論プロセスの明瞭性の両方を向上させることで、既存の手法(例えばChain-of-Thought)に対して大幅な改善を達成している。特に、CodeLlamaと組み合わせたTARTは、クローズドソースであるLLM GPT-3.5-turboの90.0%の精度を達成し、多様な実世界シナリオにおける頑健性を強調している。全てのコードとデータはhttps://github.com/XinyuanLu00/TART。
要約(オリジナル)
Current Large Language Models (LLMs) exhibit limited ability to understand table structures and to apply precise numerical reasoning, which is crucial for tasks such as table question answering (TQA) and table-based fact verification (TFV). To address these challenges, we introduce our Tool-Augmented Reasoning framework for Tables (TART), which integrates LLMs with specialized tools. TART contains three key components: a table formatter to ensure accurate data representation, a tool maker to develop specific computational tools, and an explanation generator to maintain explainability. We also present the TOOLTAB dataset, a new benchmark designed specifically for training LLMs in table-tool integration. Our experiments indicate that TART achieves substantial improvements over existing methods (e.g., Chain-of-Thought) by improving both the precision of data processing and the clarity of the reasoning process. Notably, TART paired with CodeLlama achieves 90.0% of the accuracy of the closed-sourced LLM GPT-3.5-turbo, highlighting its robustness in diverse real-world scenarios. All the code and data are available at https://github.com/XinyuanLu00/TART.
arxiv情報
著者 | Xinyuan Lu,Liangming Pan,Yubo Ma,Preslav Nakov,Min-Yen Kan |
発行日 | 2024-11-01 04:19:21+00:00 |
arxivサイト | arxiv_id(pdf) |