Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations

要約

大規模言語モデル (LLM) からの長い形式の生成には、事実と非事実の主張が混在しているため、事実性の評価が困難になります。
長い形式の世代の事実の精度をよりきめ細かい方法で評価するために、従来の研究では、長い形式の世代を複数の検証可能な事実に分解し、それらの事実を個別に検証することが提案されています。
世代の事実性とは、すべての事実のうち検証可能な事実の割合です。
このような方法では、事実に基づく主張を組み合わせることで事実に基づく段落が形成されると想定しています。
この論文は、エンティティの曖昧さによって仮定が破られる可能性があることを示しています。
LLM は検証可能な事実を含む段落を生成できるが、エンティティの曖昧さにより事実が結合されて非事実の段落を形成することを示します。
さらに、FActScore や引用再現率などの既存の事実精度の指標では、これらの非事実段落の事実性を適切に評価できないことも明らかにしました。
これに対処するために、あいまいなエンティティを含むコンテンツ向けに特別に設計された、強化された指標である D-FActScore を導入します。
検索拡張生成 (RAG) で生成された人物伝記の D-FActScore を評価します。
D-FActScore は、FActScore よりもエンティティの曖昧さを伴う段落の事実性をより適切に評価できることを示します。
また、広く使用されている 4 つのオープンソース LLM は、異なるエンティティの情報を混合して非事実の段落を形成する傾向があることもわかりました。

要約(オリジナル)

Long-form generations from large language models (LLMs) contains a mix of factual and non-factual claims, making evaluating factuality difficult. To evaluate factual precision of long-form generations in a more fine-grained way, prior works propose to decompose long-form generations into multiple verifiable facts and verify those facts independently. The factuality of the generation is the proportion of verifiable facts among all the facts. Such methods assume that combining factual claims forms a factual paragraph. This paper shows that the assumption can be violated due to entity ambiguity. We show that LLMs can generate paragraphs that contain verifiable facts, but the facts are combined to form a non-factual paragraph due to entity ambiguity. We further reveal that existing factual precision metrics, including FActScore and citation recall, cannot properly evaluate the factuality of these non-factual paragraphs. To address this, we introduce an enhanced metric, D-FActScore, specifically designed for content with ambiguous entities. We evaluate the D-FActScores of people biographies generated with retrieval-augmented generation (RAG). We show that D-FActScore can better assess the factuality of paragraphs with entity ambiguity than FActScore. We also find that four widely used open-source LLMs tend to mix information of distinct entities to form non-factual paragraphs.

arxiv情報

著者 Cheng-Han Chiang,Hung-yi Lee
発行日 2024-02-23 11:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク