要約
言語モデル (LM) はますます多くのユーザーによって広く使用されており、幅広いトピックにわたって事実性を維持するという課題が浮き彫りになっています。
まず、現実世界のユーザーインタラクションにおける LM の事実性を評価するパイプラインである VERIFY (Verification and Evidence RetrIeval for FactualitY Evaluation) を紹介します。
VERIFY は、LM で生成されたコンテンツの検証可能性を考慮し、Web から取得した証拠に基づいて、コンテンツ ユニットをサポートされる、サポートされない、または判断不能として分類します。
重要なのは、VERIFY による事実判断は、既存の方法よりも人間の評価との相関性が高いということです。
VERIFY を使用して、さまざまなトピックにわたる「幻覚プロンプト」、つまり、不正確で決定的でない LM 応答を最も高い割合で誘発するものを特定します。
これらのプロンプトは、150 のきめ細かいトピックにわたる 1,000 個のプロンプトのデータセットである FactBench を形成します。
私たちのデータセットは、現実世界の LM インタラクションにおける新たな事実性の課題を捉えており、新しいプロンプトで定期的に更新できます。
GPT、Gemini、および Llama3.1 ファミリの広く使用されている LM を FactBench でベンチマークし、次の重要な結果が得られました。 (i) 独自のモデルはより優れた事実性を示し、イージー幻覚プロンプトからハード幻覚プロンプトに至るまでパフォーマンスが低下します。
(ii) Llama3.1-405B-Instruct は、主観性が高く、決定不能とラベル付けされるコンテンツが多くなるために、すべての評価方法にわたって Llama3.1-70B-Instruct と同等かそれより低い事実精度を示します。
(iii) Gemini1.5-Pro は著しく高い拒否率を示し、症例の 25% で過剰拒否が発生しました。
私たちのコードとデータは、https://huggingface.co/spaces/launch/factbench で公開されています。
要約(オリジナル)
Language models (LMs) are widely used by an increasing number of users, underscoring the challenge of maintaining factuality across a broad range of topics. We first present VERIFY (Verification and Evidence RetrIeval for FactualitY evaluation), a pipeline to evaluate LMs’ factuality in real-world user interactions. VERIFY considers the verifiability of LM-generated content and categorizes content units as supported, unsupported, or undecidable based on the retrieved evidence from the Web. Importantly, factuality judgment by VERIFY correlates better with human evaluations than existing methods. Using VERIFY, we identify ‘hallucination prompts’ across diverse topics, i.e., those eliciting the highest rates of incorrect and inconclusive LM responses. These prompts form FactBench, a dataset of 1K prompts across 150 fine-grained topics. Our dataset captures emerging factuality challenges in real-world LM interactions and can be regularly updated with new prompts. We benchmark widely-used LMs from GPT, Gemini, and Llama3.1 family on FactBench, yielding the following key findings: (i) Proprietary models exhibit better factuality, with performance declining from Easy to Hard hallucination prompts. (ii) Llama3.1-405B-Instruct shows comparable or lower factual accuracy than Llama3.1-70B-Instruct across all evaluation methods due to its higher subjectivity that leads to more content labeled as undecidable. (iii) Gemini1.5-Pro shows a significantly higher refusal rate, with over-refusal in 25% of cases. Our code and data are publicly available at https://huggingface.co/spaces/launch/factbench.
arxiv情報
著者 | Farima Fatahi Bayat,Lechen Zhang,Sheza Munir,Lu Wang |
発行日 | 2024-10-29 17:19:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google