LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models

要約

ChatGPT や GPT-4 などの大規模言語モデル (LLM) の論理推論機能を評価および強化するための新しいアプローチである LogicAsker を紹介します。
LLM は執筆支援、コード生成、機械翻訳などのタスクにおいて優れているにもかかわらず、推論能力を評価するのは困難でした。
従来の評価では、推論プロセスの直接評価よりも下流タスクの精度が優先されることがよくあります。
LogicAsker は、命題論理と述語論理に基づいた一連のアトミック推論スキルを採用して、LLM の推論能力を体系的に検査し、向上させることで、このギャップに対処します。
私たちの方法論では、LLM の論理ルールの学習に大きなギャップがあり、さまざまなモデルで推論の失敗が 29\% から 90\% の範囲で確認されていることが明らかになりました。
さらに、これらの発見を活用して、対象を絞ったデモンストレーション例を構築し、データを微調整し、特に GPT-4o などのモデルでの論理的推論を最大 5\% 強化します。
私たちの知る限り、これはテスト ケースの結果を利用して LLM の形式的推論能力を効果的に改良する最初の取り組みです。
私たちは、さらなる研究と発見の再現を容易にするために、コード、データ、および結果を一般に公開しています (https://github.com/yxwan123/LogicAsker)。

要約(オリジナル)

We introduce LogicAsker, a novel approach for evaluating and enhancing the logical reasoning capabilities of large language models (LLMs) such as ChatGPT and GPT-4. Despite LLMs’ prowess in tasks like writing assistance, code generation, and machine translation, assessing their ability to reason has been challenging. Traditional evaluations often prioritize accuracy on downstream tasks over direct assessments of reasoning processes. LogicAsker addresses this gap by employing a set of atomic reasoning skills grounded in propositional and predicate logic to systematically examine and improve the reasoning prowess of LLMs. Our methodology reveals significant gaps in LLMs’ learning of logical rules, with identified reasoning failures ranging from 29\% to 90\% across different models. Moreover, we leverage these findings to construct targeted demonstration examples and fine-tune data, notably enhancing logical reasoning in models like GPT-4o by up to 5\%. To our knowledge, this is the first effort to utilize test case outcomes to effectively refine LLMs’ formal reasoning capabilities. We make our code, data, and results publicly available (https://github.com/yxwan123/LogicAsker) to facilitate further research and replication of our findings.

arxiv情報

著者 Yuxuan Wan,Wenxuan Wang,Yiliu Yang,Youliang Yuan,Jen-tse Huang,Pinjia He,Wenxiang Jiao,Michael R. Lyu
発行日 2024-10-02 16:30:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LO, cs.SE パーマリンク