A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、人工知能 (AI) が新たな高みに到達し、執筆支援、コード生成、機械翻訳などのさまざまなタスクにおけるブレークスルーが可能になりました。
ChatGPT などの高度な LLM の大きな特徴は、実証された「推論」能力です。
ただし、既存の評価のほとんどが推論プロセスを直接評価するのではなく、下流タスクの精度に焦点を当てているため、LLM の推論能力を評価することは依然として課題です。
LLM の推論を評価するためのベンチマークと指標を開発する努力がなされてきましたが、データ漏洩や範囲が限られているという問題があります。
この論文では、命題論理と述語論理に基づく一連のアトミック推論スキルに基づいて LLM の論理推論能力を包括的に評価し、向上させる自動アプローチである LogicAsker を紹介します。
この結果は、LLM の推論能力に関する洞察を提供し、LLM が十分に学習できなかった論理ルールを明らかにします。
GPT-3、ChatGPT、GPT-4、Bard、Vicuna、Guanaco など、広く導入されている 6 つの LLM で LogicAsker を評価します。
結果は、LogicAsker のテスト ケースがさまざまな LLM で論理的推論の失敗を 25\% ~ 94\% の割合で検出できることを示しています。
さらに、LogicAsker のテスト ケースをさらに使用して、コンテキスト内学習のデモンストレーション例を設計することもできます。これにより、LLM の論理的推論能力が効果的に向上します (例: GPT-4 の場合は 10%)。
私たちが知る限り、私たちの仕事は、LLM の形式的推論能力を効果的に向上させるために、テスト結果に基づいてプロンプトを作成した最初の仕事です。
すべてのコード、データ、結果は、再現と将来の研究のために公開されます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have propelled Artificial Intelligence (AI) to new heights, enabling breakthroughs in various tasks such as writing assistance, code generation, and machine translation. A significant distinction of advanced LLMs, such as ChatGPT, is their demonstrated ability to ‘reason.’ However, evaluating the reasoning ability of LLMs remains a challenge as most existing evaluations focus on their accuracy on the downstream tasks rather than directly assessing their reasoning processes. Efforts have been made to develop benchmarks and metrics to assess reasoning in LLMs, but they suffer from data leakage or limited scope. In this paper, we introduce LogicAsker, an automatic approach that comprehensively evaluates and improves the logical reasoning abilities of LLMs under a set of atomic reasoning skills based on propositional and predicate logic. The results provide insights into LLMs’ reasoning abilities and reveal the logical rules the LLMs did not learn well. We evaluate LogicAsker on six widely deployed LLMs, including GPT-3, ChatGPT, GPT-4, Bard, Vicuna, and Guanaco. The results show that test cases from LogicAsker can find logical reasoning failures in different LLMs with a rate of 25\% – 94\%. In addition, the test cases of LogicAsker can be further used to design demonstration examples for in-context learning, which effectively improves the logical reasoning ability of LLMs, e.g., 10\% for GPT-4. As far as we know, our work is the first to create prompts based on testing results to improve LLMs’ formal reasoning ability effectively. All the code, data, and results will be released for reproduction and future research.

arxiv情報

著者 Yuxuan Wan,Wenxuan Wang,Yiliu Yang,Youliang Yuan,Jen-tse Huang,Pinjia He,Wenxiang Jiao,Michael R. Lyu
発行日 2024-01-01 13:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LO, cs.SE パーマリンク