Fine-grained Hallucination Detection and Editing for Language Models

要約

大規模言語モデル (LM) は、広く幻覚と呼ばれる、事実に誤りのあるさまざまなステートメントを生成する傾向があります。
現在のアプローチは主に、大まかな自動幻覚検出または編集に焦点を当てており、微妙なエラーレベルは無視されています。
この論文では、新しいタスクであるきめの細かい幻覚の自動検出を提案し、階層的に定義された 6 種類の幻覚を含む包括的な分類法を提示します。
評価を容易にするために、さまざまなドメインにわたる 2 つの LM 出力に対する人間によるきめ細かい判断を含む新しいベンチマークを導入します。
私たちの分析により、ChatGPT と Llama 2-Chat はそれぞれ出力の 60% と 75% で幻覚を示しており、これらの幻覚の大部分は十分に調査されていないカテゴリーに分類されることが明らかになりました。
これに対処するための最初のステップとして、きめの細かい幻覚を検出して修正するための合成データ生成を慎重に設計することにより、検索拡張型 LM である FAVA をトレーニングします。
私たちのベンチマークでは、将来の改善の余地がまだ大きく残っていますが、FAVA がきめ細かい幻覚検出において ChatGPT よりも大幅に優れていることが自動評価と人間による評価で示されています。
FAVA が提案した編集により、LM で生成されたテキストの事実性も向上し、FActScore が 5 ~ 10% 向上します。

要約(オリジナル)

Large language models (LMs) are prone to generate diverse factually incorrect statements, which are widely called hallucinations. Current approaches predominantly focus on coarse-grained automatic hallucination detection or editing, overlooking nuanced error levels. In this paper, we propose a novel task — automatic fine-grained hallucination detection — and present a comprehensive taxonomy encompassing six hierarchically defined types of hallucination. To facilitate evaluation, we introduce a new benchmark that includes fine-grained human judgments on two LM outputs across various domains. Our analysis reveals that ChatGPT and Llama 2-Chat exhibit hallucinations in 60% and 75% of their outputs, respectively, and a majority of these hallucinations fall into categories that have been underexplored. As an initial step to address this, we train FAVA, a retrieval-augmented LM by carefully designing synthetic data generations to detect and correct fine-grained hallucinations. On our benchmark, our automatic and human evaluations show that FAVA significantly outperforms ChatGPT on fine-grained hallucination detection by a large margin though a large room for future improvement still exists. FAVA’s suggested edits also improve the factuality of LM-generated text, resulting in 5-10% FActScore improvements.

arxiv情報

著者 Abhika Mishra,Akari Asai,Vidhisha Balachandran,Yizhong Wang,Graham Neubig,Yulia Tsvetkov,Hannaneh Hajishirzi
発行日 2024-01-17 17:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク