Evaluating LLMs at Detecting Errors in LLM Responses

要約

大規模言語モデル(LLM)が様々なタスクで広く使用されるようになり、その応答の誤りを検出することがますます重要になってきている。しかし、LLMの応答のエラー検出に関する研究はほとんど行われていない。LLMの応答のエラー注釈を収集することは、多くのNLPタスクの主観的な性質のために困難であり、したがって、これまでの研究は、実用的価値の低いタスク(例えば、単語の並べ替え)や限られたエラータイプ(例えば、要約の忠実性)に焦点を当てている。ReaLMistakeは、LLMによる客観的かつ現実的で多様なエラーから構成される初のエラー検出ベンチマークである。ReaLMistakeは、4つのカテゴリ(推論の正しさ、指示への従順さ、文脈への忠実さ、パラメータ化された知識)の客観的に評価可能なエラーを導入する3つの挑戦的で意味のあるタスクを含み、専門家によってアノテーションされたGPT-4とLlama 2 70Bの応答における自然に観察された多様なエラーを引き出す。我々はReaLMistakeを用いて12のLLMに基づくエラー検出器を評価した。その結果1)GPT-4やClaude 3のようなトップクラスのLLMは、LLMによる誤りを非常に低い再現率で検出する。2) LLMベースのエラー検出器による説明は信頼性に欠ける。3) LLMに基づく誤り検出は、プロンプトの小さな変化に敏感であるが、その改善は困難である。4) 自己無撞着や多数決など、LLMを改善するための一般的なアプローチでは、エラー検出性能は改善しない。我々のベンチマークとコードはhttps://github.com/psunlpgroup/ReaLMistake。

要約(オリジナル)

With Large Language Models (LLMs) being widely used across various tasks, detecting errors in their responses is increasingly crucial. However, little research has been conducted on error detection of LLM responses. Collecting error annotations on LLM responses is challenging due to the subjective nature of many NLP tasks, and thus previous research focuses on tasks of little practical value (e.g., word sorting) or limited error types (e.g., faithfulness in summarization). This work introduces ReaLMistake, the first error detection benchmark consisting of objective, realistic, and diverse errors made by LLMs. ReaLMistake contains three challenging and meaningful tasks that introduce objectively assessable errors in four categories (reasoning correctness, instruction-following, context-faithfulness, and parameterized knowledge), eliciting naturally observed and diverse errors in responses of GPT-4 and Llama 2 70B annotated by experts. We use ReaLMistake to evaluate error detectors based on 12 LLMs. Our findings show: 1) Top LLMs like GPT-4 and Claude 3 detect errors made by LLMs at very low recall, and all LLM-based error detectors perform much worse than humans. 2) Explanations by LLM-based error detectors lack reliability. 3) LLMs-based error detection is sensitive to small changes in prompts but remains challenging to improve. 4) Popular approaches to improving LLMs, including self-consistency and majority vote, do not improve the error detection performance. Our benchmark and code are provided at https://github.com/psunlpgroup/ReaLMistake.

arxiv情報

著者 Ryo Kamoi,Sarkar Snigdha Sarathi Das,Renze Lou,Jihyun Janice Ahn,Yilun Zhao,Xiaoxin Lu,Nan Zhang,Yusen Zhang,Ranran Haoran Zhang,Sujeeth Reddy Vummanthala,Salika Dave,Shaobo Qin,Arman Cohan,Wenpeng Yin,Rui Zhang
発行日 2024-04-04 17:19:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク