To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity

要約

大規模言語モデル(LLM)の顕著な性能に寄与する主要な側面の1つは、事前学習中に蓄積された膨大な事実知識である。しかし、多くのLLMは自己矛盾に悩まされており、その信頼性と信用性に疑問が投げかけられている。本論文では、エンティティタイプの曖昧性に焦点を当て、曖昧なエンティティに促されて事実知識を適用する際の、最新のLLMの習熟度と一貫性を分析する。そのために、知識を知ることと知識を適用することを切り離す評価プロトコルを提案し、49の曖昧なエンティティに対して最先端のLLMをテストする。実験の結果、LLMは正しいエンティティの読みを選択するのに苦労し、平均85%の精度しか達成できず、指定が不十分なプロンプトでは75%という低い精度にとどまることが明らかになった。また、LLMの行動には系統的な不一致があり、LLMは知識を持っていても、それを一貫して適用するのに苦労し、優先的な読み方へのバイアスを示し、自己矛盾を示すことが明らかになった。これは、より信頼できるLLMのために、将来的にエンティティの曖昧性に対処する必要性を強調している。

要約(オリジナル)

One of the major aspects contributing to the striking performance of large language models (LLMs) is the vast amount of factual knowledge accumulated during pre-training. Yet, many LLMs suffer from self-inconsistency, which raises doubts about their trustworthiness and reliability. This paper focuses on entity type ambiguity, analyzing the proficiency and consistency of state-of-the-art LLMs in applying factual knowledge when prompted with ambiguous entities. To do so, we propose an evaluation protocol that disentangles knowing from applying knowledge, and test state-of-the-art LLMs on 49 ambiguous entities. Our experiments reveal that LLMs struggle with choosing the correct entity reading, achieving an average accuracy of only 85%, and as low as 75% with underspecified prompts. The results also reveal systematic discrepancies in LLM behavior, showing that while the models may possess knowledge, they struggle to apply it consistently, exhibit biases toward preferred readings, and display self-inconsistencies. This highlights the need to address entity ambiguity in the future for more trustworthy LLMs.

arxiv情報

著者 Anastasiia Sedova,Robert Litschko,Diego Frassinelli,Benjamin Roth,Barbara Plank
発行日 2024-10-04 14:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク