ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

要約

大規模言語モデル (LLM) は、さまざまなドメインおよび広範なアプリケーションにわたる長文の質問応答タスクで幻覚を示します。
現在の幻覚検出および軽減データセットは領域とサイズが限られており、法外な人件費と既存の幻覚アノテーターの信頼性が不十分なため、拡張するのが困難です。
LLM 幻覚のスケーラブルな監視を容易にするために、この論文では、幻覚アノテーション データセットを同時にかつ段階的にスケールアップし、幻覚アノテーターの精度を向上させる反復的な自己トレーニング フレームワークを導入します。
期待値最大化 (EM) アルゴリズムに基づいて、フレームワークは各反復で、まず幻覚アノテーション パイプラインを適用してスケーリングされたデータセットに注釈を付けてから、データセット上でより正確な幻覚アノテーターをトレーニングします。
この新しい幻覚アノテーターは、次の反復で使用される幻覚アノテーション パイプラインに採用されます。
広範な実験結果により、最終的に得られたわずか 7B パラメータの幻覚アノテーターは GPT-4 の性能を上回り、ゼロショット推論によって HaluEval および HalluQA 上で新しい最先端の幻覚検出結果が得られることが実証されました。
このようなアノテーターは、大規模なデータセット上のさまざまな LLM の幻覚レベルを評価できるだけでなく、HaluEval で自然言語推論 (NLI) メトリクスが 25% から 37% に増加するため、LLM 世代の幻覚を軽減するのにも役立ちます。

要約(オリジナル)

Large language models (LLMs) exhibit hallucinations in long-form question-answering tasks across various domains and wide applications. Current hallucination detection and mitigation datasets are limited in domains and sizes, which struggle to scale due to prohibitive labor costs and insufficient reliability of existing hallucination annotators. To facilitate the scalable oversight of LLM hallucinations, this paper introduces an iterative self-training framework that simultaneously and progressively scales up the hallucination annotation dataset and improves the accuracy of the hallucination annotator. Based on the Expectation Maximization (EM) algorithm, in each iteration, the framework first applies a hallucination annotation pipeline to annotate a scaled dataset and then trains a more accurate hallucination annotator on the dataset. This new hallucination annotator is adopted in the hallucination annotation pipeline used for the next iteration. Extensive experimental results demonstrate that the finally obtained hallucination annotator with only 7B parameters surpasses the performance of GPT-4 and obtains new state-of-the-art hallucination detection results on HaluEval and HalluQA by zero-shot inference. Such an annotator can not only evaluate the hallucination levels of various LLMs on the large-scale dataset but also help to mitigate the hallucination of LLMs generations, with the Natural Language Inference (NLI) metric increasing from 25% to 37% on HaluEval.

arxiv情報

著者 Yuzhe Gu,Ziwei Ji,Wenwei Zhang,Chengqi Lyu,Dahua Lin,Kai Chen
発行日 2024-12-19 15:11:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク