FELM: Benchmarking Factuality Evaluation of Large Language Models

要約

大規模言語モデル (LLM) によって生成されたテキストの事実性の評価は、新興ではあるものの重要な研究領域であり、ユーザーに潜在的なエラーを警告し、より信頼性の高い LLM の開発を導くことを目的としています。
それにもかかわらず、事実を評価する評価者は、進捗状況を評価し、進歩を促進するために、適切な評価を自ら行う必要があります。
この方向性は依然として探求されていないため、事実評価者の進歩に大きな障害をもたらしています。
この問題を軽減するために、felm と呼ばれる大規模言語モデルの事実性評価のベンチマークを導入します。
このベンチマークでは、LLM から生成された応答を収集し、きめ細かい方法で事実ラベルに注釈を付けます。
主に世界の知識(ウィキペディアからの情報など)の事実性に焦点を当てたこれまでの研究とは対照的に、felm は世界の知識から数学や推論に至るまで、多様な領域にわたる事実性に焦点を当てています。
注釈はテキスト セグメントに基づいており、特定の事実上の誤りを正確に指摘するのに役立ちます。
事実性の注釈は、事前に定義されたエラー タイプと、ステートメントを裏付けるか矛盾する参照リンクによってさらに補足されます。
私たちの実験では、バニラ LLM と、検索メカニズムと思考連鎖プロセスで強化された LLM の両方を含む、felm 上のいくつかの LLM ベースの事実評価器のパフォーマンスを調査します。
私たちの調査結果は、検索は事実性の評価には役立ちますが、現在の LLM は事実の誤りを忠実に検出するには決して満足できるものではないことを明らかにしています。

要約(オリジナル)

Assessing factuality of text generated by large language models (LLMs) is an emerging yet crucial research area, aimed at alerting users to potential errors and guiding the development of more reliable LLMs. Nonetheless, the evaluators assessing factuality necessitate suitable evaluation themselves to gauge progress and foster advancements. This direction remains under-explored, resulting in substantial impediments to the progress of factuality evaluators. To mitigate this issue, we introduce a benchmark for Factuality Evaluation of large Language Models, referred to as felm. In this benchmark, we collect responses generated from LLMs and annotate factuality labels in a fine-grained manner. Contrary to previous studies that primarily concentrate on the factuality of world knowledge (e.g.~information from Wikipedia), felm focuses on factuality across diverse domains, spanning from world knowledge to math and reasoning. Our annotation is based on text segments, which can help pinpoint specific factual errors. The factuality annotations are further supplemented by predefined error types and reference links that either support or contradict the statement. In our experiments, we investigate the performance of several LLM-based factuality evaluators on felm, including both vanilla LLMs and those augmented with retrieval mechanisms and chain-of-thought processes. Our findings reveal that while retrieval aids factuality evaluation, current LLMs are far from satisfactory to faithfully detect factual errors.

arxiv情報

著者 Shiqi Chen,Yiran Zhao,Jinghan Zhang,I-Chun Chern,Siyang Gao,Pengfei Liu,Junxian He
発行日 2023-11-28 08:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク