ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models


ChatGPT や GPT-4 などの大規模言語モデル (LLM) は、NLP で大きな進歩を遂げました。
ただし、常識的な知識を記憶、表現、活用する能力は、LLM にとってよく知られた問題点です。
(1) GPT は常識的な質問に効果的に答えることができるか?
(2) GPT は常識に精通していますか?
(3) GPT は、特定の質問に回答するための基礎となる常識的な知識を認識していますか?
(4) GPT は、質問に答えるために常識を効果的に活用できますか?
上記の常識的な問題を評価するために、ChatGPT の常識的な能力を評価する一連の実験を行い、実験結果は次のことを示しています。
(2) ChatGPT は知識が豊富で、知識プロンプトを使用してほとんどの常識的な知識を正確に生成できます。
(3) その知識にもかかわらず、ChatGPT は経験の浅い常識的な問題解決者であり、特定の質問に答えるために必要な常識的な知識を正確に特定することはできません。つまり、ChatGPT は、質問に答えるために必要な常識的な知識を正確に知りません。
上記の調査結果により、LLM で常識知識を利用するためのより良いメカニズム (命令に従う、より良い常識的なガイダンスなど) を調査する必要性が生じます。


Large language models (LLMs) such as ChatGPT and GPT-4 have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point for LLMs. It remains unclear that: (1) Can GPTs effectively answer commonsense questions? (2) Are GPTs knowledgeable in commonsense? (3) Are GPTs aware of the underlying commonsense knowledge for answering a specific question? (4) Can GPTs effectively leverage commonsense for answering questions? To evaluate the above commonsense problems, we conduct a series of experiments to evaluate ChatGPT’s commonsense abilities, and the experimental results show that: (1) GPTs can achieve good QA accuracy in commonsense tasks, while they still struggle with certain types of knowledge. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense knowledge for answering a specific question, i.e., ChatGPT does not precisely know what commonsense knowledge is required to answer a question. The above findings raise the need to investigate better mechanisms for utilizing commonsense knowledge in LLMs, such as instruction following, better commonsense guidance, etc.


