ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

要約

大規模言語モデル (LLM) は、NLP において大きな進歩を遂げました。
しかし、常識的な知識を記憶し、表現し、活用する能力は、よく知られている問題点です。
このペーパーでは、広く使用され、簡単にアクセスできる LLM である ChatGPT に特に焦点を当て、次の質問をします: (1) ChatGPT は常識的な質問に効果的に答えることができますか?
(2) ChatGPT は、特定の質問に答えるための基礎となる常識知識を認識していますか?
(3) ChatGPT は常識的な知識を持っていますか?
(4) ChatGPT は質問に答えるために常識を効果的に活用できますか?
私たちは、常識的な質問への回答、必要な知識の特定、知識の説明の生成、質問に再度答えるための知識の説明の使用など、ChatGPT の常識的な能力を評価するために 11 のデータセットで一連の実験を実行します。
実験結果は次のことを示しています: (1) ChatGPT は、データセットの特定のドメインでは依然として問題を抱えながらも、常識的なタスクでは良好な QA 精度を達成できます。
(2) ChatGPT は知識が豊富で、知識プロンプトを使用して常識的な知識のほとんどを正確に生成できます。
(3) ChatGPT は知識があるにもかかわらず、経験の浅い常識問題解決ツールであり、特定の質問に答えるために必要な常識を正確に特定できません。
これらの発見により、より適切な指示に従い、常識的なガイダンスなど、ChatGPT のような LLM に常識を効果的に組み込むための改善されたメカニズムを探索する必要性が生じています。

要約(オリジナル)

Large language models (LLMs) have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point. In this paper, we specifically focus on ChatGPT, a widely used and easily accessible LLM, and ask the following questions: (1) Can ChatGPT effectively answer commonsense questions? (2) Is ChatGPT aware of the underlying commonsense knowledge for answering a specific question? (3) Is ChatGPT knowledgeable in commonsense? (4) Can ChatGPT effectively leverage commonsense for answering questions? We conduct a series of experiments on 11 datasets to evaluate ChatGPT’s commonsense abilities, including answering commonsense questions, identifying necessary knowledge, generating knowledge descriptions, and using knowledge descriptions to answer questions again. Experimental results show that: (1) ChatGPT can achieve good QA accuracies in commonsense tasks, while still struggling with certain domains of datasets. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense for answering a specific question. These findings raise the need to explore improved mechanisms for effectively incorporating commonsense into LLMs like ChatGPT, such as better instruction following and commonsense guidance.

arxiv情報

著者 Ning Bian,Xianpei Han,Le Sun,Hongyu Lin,Yaojie Lu,Ben He,Shanshan Jiang,Bin Dong
発行日 2024-04-19 04:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク