FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data

要約

大規模な言語モデル(LLM)の幻覚を検出するための根拠のある事実性分類モデルのトレーニングに関する事前の研究は、公共の自然言語推論(NLI)データと合成データに依存しています。
ただし、従来のNLIデータセットは、LLMの幻覚を検出するために重要なドキュメントレベルの推論には適していません。
ドキュメントレベルの合成データ生成への最近のアプローチには、文書から文を繰り返し削除し、LLMベースのプロンプトを使用して事実を注釈を付けます。
効果的ですが、この方法は長いドキュメントに対して計算上高価であり、LLMの機能によって制限されています。
この作業では、最先端のモデルと実際のLLM出力請求で使用される既存の合成トレーニングデータの違いを分析します。
調査結果に基づいて、ドキュメントから抽出されたコンテキストグラフでマルチホップ推論を活用する合成データ生成の新しいアプローチCG2Cを提案します。
私たちのファクトチェッカーモデルであるFACTCGは、同じバックボーンモデルを使用して、より接続された推論でパフォーマンスの向上を示しています。
実験では、モデルサイズがはるかに小さく、LLM-AggrefactベンチマークでGPT-4-Oよりも優れていることが示されています。

要約(オリジナル)

Prior research on training grounded factuality classification models to detect hallucinations in large language models (LLMs) has relied on public natural language inference (NLI) data and synthetic data. However, conventional NLI datasets are not well-suited for document-level reasoning, which is critical for detecting LLM hallucinations. Recent approaches to document-level synthetic data generation involve iteratively removing sentences from documents and annotating factuality using LLM-based prompts. While effective, this method is computationally expensive for long documents and limited by the LLM’s capabilities. In this work, we analyze the differences between existing synthetic training data used in state-of-the-art models and real LLM output claims. Based on our findings, we propose a novel approach for synthetic data generation, CG2C, that leverages multi-hop reasoning on context graphs extracted from documents. Our fact checker model, FactCG, demonstrates improved performance with more connected reasoning, using the same backbone models. Experiments show it even outperforms GPT-4-o on the LLM-Aggrefact benchmark with much smaller model size.

arxiv情報

著者 Deren Lei,Yaxi Li,Siyao Li,Mengya Hu,Rui Xu,Ken Archer,Mingyu Wang,Emily Ching,Alex Deng
発行日 2025-01-28 18:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク