Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning

要約

タイトル: 大規模言語モデルは多目的分解システムである:証拠とテーブルベースの推論のために証拠と質問を分解

要約:

– テーブルベースの推論は、自然言語の質問と構造化されたテーブルデータの推論を組み合わせた深層モデルの進歩を示しており、以前のテーブルベースの推論ソリューションよりも意義深い。
– しかしながら、以前のソリューションは、膨大な証拠(テーブル)に対しては性能が劣化することが一般的であり、また、必要な情報が異なる場所に分散しているため、複雑な質問に対して推論するのに苦労することが多い。
– 上記の課題を緩和するために、効果的なテーブルベースの推論のために、大規模言語モデル(LLMs)を分解システムとして活用することを提案する。
– 具体的には、LLMsを使用して、現在の質問に関連する証拠を保持し、不要な証拠を大きな表から除外する分解を行います。また、論理と数値計算を各ステップで分離することにより、考えの連鎖の幻想を軽減する「解析-実行-補完」戦略を提案します。
– 大規模言語モデルを利用することで、比較的複雑な質問にも対応でき、TabFact、WikiTableQuestion、およびFetaQAのデータセットに対して優れた性能を発揮することができます。特に、TabFactデータセットでは、我々のモデルが人間のパフォーマンスを初めて上回ることができます。

要約(オリジナル)

Table-based reasoning has shown remarkable progress in combining deep models with discrete reasoning, which requires reasoning over both free-form natural language (NL) questions and structured tabular data. However, previous table-based reasoning solutions usually suffer from significant performance degradation on huge evidence (tables). In addition, most existing methods struggle to reason over complex questions since the required information is scattered in different places. To alleviate the above challenges, we exploit large language models (LLMs) as decomposers for effective table-based reasoning, which (i) decompose huge evidence (a huge table) into sub-evidence (a small table) to mitigate the interference of useless information for table reasoning; and (ii) decompose complex questions into simpler sub-questions for text reasoning. Specifically, we first use the LLMs to break down the evidence (tables) involved in the current question, retaining the relevant evidence and excluding the remaining irrelevant evidence from the huge table. In addition, we propose a ‘parsing-execution-filling’ strategy to alleviate the hallucination dilemma of the chain of thought by decoupling logic and numerical computation in each step. Extensive experiments show that our method can effectively leverage decomposed evidence and questions and outperforms the strong baselines on TabFact, WikiTableQuestion, and FetaQA datasets. Notably, our model outperforms human performance for the first time on the TabFact dataset.

arxiv情報

著者 Yunhu Ye,Binyuan Hui,Min Yang,Binhua Li,Fei Huang,Yongbin Li
発行日 2023-04-27 11:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク