Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理 (NLP) タスクにおいて非常に効果的です。
しかし、彼らは幻覚と呼ばれる曖昧な状況で信頼性の低い推測を生み出す傾向があります。
この論文では、答えられない数学の文章題 (MWP) に基づいた質問応答 (QA) における LLM 幻覚を評価するための新しい方法を紹介します。
このアプローチをサポートするために、私たちは 5 つのカテゴリにわたる 5,200 の質問で構成される、答えられない数学単語問題 (UMWP) と呼ばれるデータセットを革新的に開発しました。
私たちは、テキストの類似性と数式の検出を組み合わせた評価方法を開発し、LLM が質問を答えられないと判断するかどうかを判断しました。
GPT-3、InstructGPT、LLaMA、Claude を含む 31 個の LLM に対して行われた広範な実験の結果は、インコンテキスト学習とヒューマン フィードバックによる強化学習 (RLHF) トレーニングにより、モデルの幻覚回避能力が大幅に向上することを示しています。
私たちは、MWP の利用が幻覚を評価するための信頼性が高く効果的なアプローチであることを示します。
コードとデータは https://github.com/Yuki-Asuuna/UMWP で入手できます。

要約(オリジナル)

Large language models (LLMs) are highly effective in various natural language processing (NLP) tasks. However, they are susceptible to producing unreliable conjectures in ambiguous contexts called hallucination. This paper presents a new method for evaluating LLM hallucination in Question Answering (QA) based on the unanswerable math word problem (MWP). To support this approach, we innovatively develop a dataset called Unanswerable Math Word Problem (UMWP) which comprises 5200 questions across five categories. We developed an evaluation methodology combining text similarity and mathematical expression detection to determine whether LLM considers the question unanswerable. The results of extensive experiments conducted on 31 LLMs, including GPT-3, InstructGPT, LLaMA, and Claude, demonstrate that in-context learning and reinforcement learning with human feedback (RLHF) training significantly enhance the model’s ability to avoid hallucination. We show that utilizing MWP is a reliable and effective approach to assess hallucination. Our code and data are available at https://github.com/Yuki-Asuuna/UMWP.

arxiv情報

著者 Yuhong Sun,Zhangyue Yin,Qipeng Guo,Jiawen Wu,Xipeng Qiu,Hui Zhao
発行日 2024-03-06 09:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク