Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4



– 論理的推論能力の向上は、自然言語理解を包括的に扱うことに関連する
– GPT-4は、推論タスクにおいて「高度に進んだ」と評価されている
– この論文は、多くの論理的推論データセットに対して、GPT-4のパフォーマンスを試験したものである
– 既存のデータセットだけでなく、新たにリリースされたAR-LSATなどのデータセットも用いた
– 論理的推論能力を必要とするベンチマークを用いて、多肢選択式読解と自然言語推論タスクをテストした
– ChatGPTとGPT-4のロバスト性を調べるために、論理的推論のアウトオブディストリビューションデータセットを構築した
– ChatGPTとGPT-4の性能を比較して、結果はChatGPTが多くの論理的推論のベンチマークにおいてRoBERTaファインチューニング法に比べて優れていることを示した
– 実験結果によると、GPT-4は、手作業のテストにおいてさらに高いパフォーマンスを発揮した
– バンチマークによって、LogiQAやReClorなどのよく知られたデータセットにはChatGPTとGPT-4は比較的良い結果を示した
– ただし、新たにリリースされたデータセットや、アウトオブディストリビューションのデータセットを扱う場合は、性能が著しく低下することが分かった
– チャットGPTとGPT-4にとって、論理的推論は、特にアウトオブディストリビューションや自然言語推論の場合には依然として課題が残る。


Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as ‘advanced’ at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. GPT-4 shows even higher performance on our manual tests. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets.


著者 Hanmeng Liu,Ruoxi Ning,Zhiyang Teng,Jian Liu,Qiji Zhou,Yue Zhang
発行日 2023-04-07 01:37:45+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.CL パーマリンク