LOGIC-LM++: Multi-Step Refinement for Symbolic Formulations

要約

この論文では、複雑な推論タスクに対する大規模言語モデル (LLM) の制限について検討します。
最近の作品では、推論タスクの中間表現として形式言語を採用し始めていますが、正確性を確保するためにこれらの形式仕様を正確に生成および改良する際に課題に直面することがよくあります。
これらの問題に対処するために、この文書では Logic-LM を改良した Logic-LM++ を提案します。
これは、LLM のペアごとの比較を行う機能を使用して、LLM によって提案された改良点の評価を可能にします。
この論文は、Logic-LM++ が、FOLIO、ProofWriter、AR-LSAT の 3 つのデータセットにおける自然言語推論タスク全体で、Logic-LM やその他の最新の手法よりも優れたパフォーマンスを示し、標準的なプロンプトで 18.5%、思考連鎖プロンプトで 12.3% の平均改善を示していることを示しています。
Logic-LM では 5%。

要約(オリジナル)

In this paper we examine the limitations of Large Language Models (LLMs) for complex reasoning tasks. Although recent works have started to employ formal languages as an intermediate representation for reasoning tasks, they often face challenges in accurately generating and refining these formal specifications to ensure correctness. To address these issues, this paper proposes Logic-LM++, an improvement on Logic-LM . It uses the ability of LLMs to do pairwise comparisons, allowing the evaluation of the refinements suggested by the LLM. The paper demonstrates that Logic-LM++ outperforms Logic-LM and other contemporary techniques across natural language reasoning tasks on three datasets, FOLIO, ProofWriter and AR-LSAT, with an average improvement of 18.5% on standard prompting, 12.3% on chain of thought prompting and 5% on Logic-LM.

arxiv情報

著者 Shashank Kirtania,Priyanshu Gupta,Arjun Radhakirshna
発行日 2024-08-06 06:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LO パーマリンク