要約
【タイトル】
ChatGPTとGPT-4の論理的推論能力の評価
【要約】
– 論理的推論能力の向上は自然言語理解の主要な課題である
– GPT-4は、理解課題で「高度」として強調されていることから、論理的推論タスクでのGPT-4の実力を知ることが望まれている
– 著者たちは、LogiQAやReClorなどの代表的なベンチマークや、AR-LSATなどの新しいデータセットを使用して、複数の論理的推論データセットを分析した
– マルチチョイス読解や自然言語推論タスクを、論理的推論が必要なベンチマークでテストした
– ChatGPTとGPT-4の堅牢性を調べるために、論理的推論の分野外のデータセットも構築した
– ChatGPTとGPT-4の性能比較を実施した結果、ChatGPTはほとんどの論理的推論ベンチマークで、RoBERTaの微調整メソッドよりも優れた性能を発揮した
– GPT-4のAPIにアクセスして実験を実施した結果、GPT-4はほとんどの論理的推論データセットで、さらに高い性能を発揮した
– ChatGPTとGPT-4は、LogiQAやReClorなどのよく知られているデータセットで比較的良い成績を収めたが、新しくリリースされた分野外のデータセットや自然言語推論データセットでは性能が大幅に低下した
– 著者たちは、プロンプトスタイルの論理的推論データセットをベンチマークスイートとしてリリースし、LogiEvalと名付けた
要約(オリジナル)
Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as ‘advanced’ at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. With early access to the GPT-4 API we are able to conduct intense experiments on the GPT-4 model. The results show GPT-4 yields even higher performance on most logical reasoning datasets. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets. We release the prompt-style logical reasoning datasets as a benchmark suite and name it LogiEval.
arxiv情報
| 著者 | Hanmeng Liu,Ruoxi Ning,Zhiyang Teng,Jian Liu,Qiji Zhou,Yue Zhang | 
| 発行日 | 2023-05-05 07:24:48+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
