RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge

要約

LLM と AI チャットボットは、さまざまな分野で人々の効率を向上させてきました。
ただし、質問に答えるために必要な知識は、モデルの知識の境界を超えている可能性があります。
この問題を軽減するために、多くの研究者は、最新情報を取得するために、ナレッジ グラフやインターネット コンテンツなどの外部知識を LLM に導入しようとしています。
ただし、インターネットからの外部情報には、モデルを混乱させ、誤った応答を引き起こす反事実的な情報が含まれている可能性があります。
したがって、LLM には、信頼できる情報と外部の知識を区別する能力が急務となっています。
したがって、外部知識の信頼性を識別する LLM の能力を評価するために、既存の知識ベースからベンチマークを作成します。
私たちのベンチマークは、質問応答とテキスト生成という 2 つのタスクで構成されており、各タスクに対して、反事実情報を含むコンテキストをモデルに提供します。
評価結果によると、既存の LLM は、反事実情報を含む信頼性の低い外部知識による干渉の影響を受けやすく、単純な介入方法ではこの問題の緩和に限定的な貢献しかできません。

要約(オリジナル)

LLMs and AI chatbots have improved people’s efficiency in various fields. However, the necessary knowledge for answering the question may be beyond the models’ knowledge boundaries. To mitigate this issue, many researchers try to introduce external knowledge, such as knowledge graphs and Internet contents, into LLMs for up-to-date information. However, the external information from the Internet may include counterfactual information that will confuse the model and lead to an incorrect response. Thus there is a pressing need for LLMs to possess the ability to distinguish reliable information from external knowledge. Therefore, to evaluate the ability of LLMs to discern the reliability of external knowledge, we create a benchmark from existing knowledge bases. Our benchmark consists of two tasks, Question Answering and Text Generation, and for each task, we provide models with a context containing counterfactual information. Evaluation results show that existing LLMs are susceptible to interference from unreliable external knowledge with counterfactual information, and simple intervention methods make limited contributions to the alleviation of this issue.

arxiv情報

著者 Yi Liu,Lianzhe Huang,Shicheng Li,Sishuo Chen,Hao Zhou,Fandong Meng,Jie Zhou,Xu Sun
発行日 2023-11-14 13:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク