要約
常識的な推論は、人間の知性の基本的な要素であり、周囲の観察に基づいて結論を推測する能力を強化します。
大規模言語モデル (LLM) は、人間レベルのタスクをますます実行できる強力なツールとして出現しています。
GPT-4 の形での最近の開発と、健康診断、司法試験などの人間にとって複雑なタスクでの実証された成功により、LLM が知性の完璧な道具になるという信頼が高まりました。
ただし、GPT-4 の論文では、いくつかの常識的な推論タスクでパフォーマンスが示されていますが、常識的な推論タスク、特に既存の十分に確立されたデータセットに関する GPT-4 の包括的な評価はありません。
この研究では、認知心理学のツールとともに、広く使用されている CommonsenseQA データセットからの一連の常識的な推論の質問に対する GPT-4 のパフォーマンスの評価に焦点を当てています。
そうすることで、GPT-4がどのように常識知識を処理し、コンテキスト情報と統合するかを理解し、常識応答を生成する能力を可能にする基礎となる認知プロセスへの洞察を提供します.
GPT-4 は、常識的な質問に答える際に高レベルの精度を示し、その前身である GPT-3 および GPT-3.5 よりも優れていることを示しています。
CommonSenseQA での GPT-4 の精度は 83% であり、元の研究では、同じデータに対する人間の精度が 89% であることが示されています。
GPT-4 は人間のパフォーマンスには及ばないものの、CommonSenseQA 調査で使用された元の言語モデルの元の 56.5% から大幅に改善されています。
私たちの結果は、機械が人間と機械の推論の間のギャップを埋めることを可能にすることにより、AI の分野に革命を起こす大きな可能性を秘めた GPT-4 の常識的推論能力に対する既に利用可能な評価と信頼を強化します。
要約(オリジナル)
Commonsense reasoning is a basic ingredient of intelligence in humans, empowering the ability to deduce conclusions based on the observations of surroundings. Large language models (LLMs) are emerging as potent tools increasingly capable of performing human-level tasks. The recent development in the form of GPT-4 and its demonstrated success in tasks complex to humans such as medical exam, bar exam and others has led to an increased confidence in the LLMs to become perfect instruments of intelligence. Though, the GPT-4 paper has shown performance on some common sense reasoning tasks, a comprehensive assessment of GPT-4 on common sense reasoning tasks, particularly on the existing well-established datasets is missing. In this study, we focus on the evaluation of GPT-4’s performance on a set of common sense reasoning questions from the widely used CommonsenseQA dataset along with tools from cognitive psychology. In doing so, we understand how GPT-4 processes and integrates common sense knowledge with contextual information, providing insight into the underlying cognitive processes that enable its ability to generate common sense responses. We show that GPT-4 exhibits a high level of accuracy in answering common sense questions, outperforming its predecessor, GPT-3 and GPT-3.5. We show that the accuracy of GPT-4 on CommonSenseQA is 83 % and it has been shown in the original study that human accuracy over the same data was 89 %. Although, GPT-4 falls short of the human performance, it is a substantial improvement from the original 56.5 % in the original language model used by the CommonSenseQA study. Our results strengthen the already available assessments and confidence on GPT-4’s common sense reasoning abilities which have significant potential to revolutionize the field of AI, by enabling machines to bridge the gap between human and machine reasoning.
arxiv情報
著者 | Sifatkaur,Manmeet Singh,Vaisakh SB,Neetiraj Malviya |
発行日 | 2023-03-20 20:28:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google