The Confidence-Competence Gap in Large Language Models: A Cognitive Study

要約

大規模言語モデル (LLM) は、さまざまなドメインにわたるパフォーマンスで広く注目を集めています。
ここでの私たちの研究は、LLMの認知能力と自信のダイナミクスを調査します。
私たちは、彼らの自己評価した自信と実際のパフォーマンスの間の整合性を深く理解します。
私たちはこれらのモデルをさまざまなアンケートや現実世界のシナリオで活用し、LLM が自分の回答にどのように自信を示しているかを抽出します。
私たちの調査結果では、モデルが不正解の場合でも高い信頼性を示している興味深い例が明らかになりました。
これは人間の心理学で観察されるダニング・クルーガー効果を彷彿とさせます。
対照的に、モデルが正しい答えに対して低い信頼性を示し、潜在的な過小評価バイアスが明らかになる場合もあります。
私たちの結果は、彼らの認知プロセスをより深く理解する必要性を強調しています。
LLM の自己評価メカニズムの微妙な違いを調べることにより、この調査は、機能を進歩させ、これらの恐るべき言語モデルの潜在的な応用範囲を広げるのに役立つ注目すべき新事実を提供します。

要約(オリジナル)

Large Language Models (LLMs) have acquired ubiquitous attention for their performances across diverse domains. Our study here searches through LLMs’ cognitive abilities and confidence dynamics. We dive deep into understanding the alignment between their self-assessed confidence and actual performance. We exploit these models with diverse sets of questionnaires and real-world scenarios and extract how LLMs exhibit confidence in their responses. Our findings reveal intriguing instances where models demonstrate high confidence even when they answer incorrectly. This is reminiscent of the Dunning-Kruger effect observed in human psychology. In contrast, there are cases where models exhibit low confidence with correct answers revealing potential underestimation biases. Our results underscore the need for a deeper understanding of their cognitive processes. By examining the nuances of LLMs’ self-assessment mechanism, this investigation provides noteworthy revelations that serve to advance the functionalities and broaden the potential applications of these formidable language models.

arxiv情報

著者 Aniket Kumar Singh,Suman Devkota,Bishal Lamichhane,Uttam Dhakal,Chandra Dhakal
発行日 2023-09-28 03:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC, I.2.0 パーマリンク