要約
テーブルベースの推論は、特に一般的な推論パラダイムに革命をもたらした大規模言語モデル (LLM) との統合において、大きな研究上の関心を集めています。
多くの LLM ベースの研究では、構造化されたテーブルの理解や複雑な算術計算における人間のような能力を拡張するためのアシスタントとしてシンボリック ツール (データベース、Python など) が導入されています。
ただし、これらの研究には、依然として非標準の論理分割と制約された操作プールの制限があるため、シンボリック ツールを使用した場合の人間の認知行動をシミュレートする点で改善の余地があります。
この研究では、人間の表形式アナリストをシミュレートする新しい表ベースの推論方法として PoTable を提案します。PoTable は、LLM ベースの操作プランナーとコード ジェネレーターを伴うリアルタイム実行者としての Python インタプリタを統合します。
具体的には、PoTable は人間のような論理ステージ分割に従い、操作プールを制約なしでオープンワールド空間に拡張します。
各段階での計画と実行を通じて、PoTable は標準的に推論プロセス全体を完了し、高精度で段階的にコメントが付けられた完全に実行可能なプログラムとともに優れた推論結果を生成します。
したがって、PoTable の有効性と説明可能性が十分に発揮されます。
2 つのバックボーン上の 2 つの公開ベンチマークからの 3 つの評価データセットにわたる広範な実験により、私たちのアプローチの優れたパフォーマンスが示されました。
特に、GPT ベースの PoTable は、すべての評価データセットで次点よりも 4% 以上高い絶対精度を達成しています。
要約(オリジナル)
Table-based reasoning has garnered substantial research interest, particularly in its integration with Large Language Model (LLM) which has revolutionized the general reasoning paradigm. Numerous LLM-based studies introduce symbolic tools (e.g., databases, Python) as assistants to extend human-like abilities in structured table understanding and complex arithmetic computations. However, these studies can be improved better in simulating human cognitive behavior when using symbolic tools, as they still suffer from limitations of non-standard logical splits and constrained operation pools. In this study, we propose PoTable as a novel table-based reasoning method that simulates a human tabular analyst, which integrates a Python interpreter as the real-time executor accompanied by an LLM-based operation planner and code generator. Specifically, PoTable follows a human-like logical stage split and extends the operation pool into an open-world space without any constraints. Through planning and executing in each distinct stage, PoTable standardly completes the entire reasoning process and produces superior reasoning results along with highly accurate, steply commented and completely executable programs. Accordingly, the effectiveness and explainability of PoTable are fully demonstrated. Extensive experiments over three evaluation datasets from two public benchmarks on two backbones show the outstanding performance of our approach. In particular, GPT-based PoTable achieves over 4% higher absolute accuracy than runner-ups on all evaluation datasets.
arxiv情報
著者 | Qingyang Mao,Qi Liu,Zhi Li,Mingyue Cheng,Zheng Zhang,Rui Li |
発行日 | 2024-12-05 15:54:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google