Behavioral Testing: Can Large Language Models Implicitly Resolve Ambiguous Entities?

要約

大規模言語モデル (LLM) の驚異的なパフォーマンスに貢献する主な側面の 1 つは、事前トレーニング中に蓄積された膨大な量の事実の知識です。
しかし、多くの LLM は自己矛盾に悩まされており、その信頼性と信頼性に疑問が生じています。
このペーパーでは、エンティティ タイプのあいまいさに焦点を当て、あいまいさの下でエンティティの入力を求められた場合に事実の知識を適用する能力と一貫性について、現在の最先端の LLM を分析します。
そのために、知識と応用知識を分離する評価プロトコルを提案し、49 のエンティティで最先端の LLM をテストします。
私たちの実験では、LLM は曖昧なプロンプトではパフォーマンスが低く、80% の精度しか達成できないことが明らかになりました。
私たちの結果はさらに、LLM の動作における系統的な不一致と、情報を一貫して適用できないことを実証しており、モデルが知識を利用できなくても知識を示すことができること、好ましい読み取り値に対する重大な偏り、および自己矛盾があることを示しています。
私たちの研究は、将来、より信頼できる LLM のためにエンティティの曖昧さを処理することの重要性を強調しています。

要約(オリジナル)

One of the major aspects contributing to the striking performance of large language models (LLMs) is the vast amount of factual knowledge accumulated during pre-training. Yet, many LLMs suffer from self-inconsistency, which raises doubts about their trustworthiness and reliability. In this paper, we focus on entity type ambiguity and analyze current state-of-the-art LLMs for their proficiency and consistency in applying their factual knowledge when prompted for entities under ambiguity. To do so, we propose an evaluation protocol that disentangles knowing from applying knowledge, and test state-of-the-art LLMs on 49 entities. Our experiments reveal that LLMs perform poorly with ambiguous prompts, achieving only 80% accuracy. Our results further demonstrate systematic discrepancies in LLM behavior and their failure to consistently apply information, indicating that the models can exhibit knowledge without being able to utilize it, significant biases for preferred readings, as well as self inconsistencies. Our study highlights the importance of handling entity ambiguity in future for more trustworthy LLMs

arxiv情報

著者 Anastasiia Sedova,Robert Litschko,Diego Frassinelli,Benjamin Roth,Barbara Plank
発行日 2024-07-24 09:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク