Fine-grained Hallucination Detection and Mitigation in Long-form Question Answering

要約

長文質問応答 (LFQA) は、複雑な質問に対して徹底的かつ詳細な回答を提供し、理解を高めることを目的としています。
ただし、このような詳細な回答は幻覚や事実の不一致を招きやすく、忠実な評価が困難になります。
この研究では、人間が作成した、モデルが生成した LFQA 回答に対する局所的なエラー アノテーションを備えた初の幻覚データセットである HaluQuestQA を導入します。
HaluQuestQA は、専門アノテーターによる 5 つの異なるエラー タイプに対する 4.7k スパンレベルのエラー アノテーションと好みの判断を備えた 698 の QA ペアで構成されています。
収集したデータを使用して、長文回答の欠点を徹底的に分析し、包括性に欠け、参考にならないことを発見します。
このデータセットで自動フィードバック モデルをトレーニングし、不完全な情報でエラー スパンを予測し、関連する説明を提供します。
最後に、学習したフィードバック モデルからの信号を使用して生成された回答を洗練する、プロンプトベースのアプローチであるエラー情報による洗練を提案します。これにより、幻覚が軽減され、回答の質が向上することを示します。
さらに、人間は私たちのアプローチによって生成された回答が包括的であると感じ、ベースラインの回答よりもそれらの回答を非常に好みます (84%)。

要約(オリジナル)

Long-form question answering (LFQA) aims to provide thorough and in-depth answers to complex questions, enhancing comprehension. However, such detailed responses are prone to hallucinations and factual inconsistencies, challenging their faithful evaluation. This work introduces HaluQuestQA, the first hallucination dataset with localized error annotations for human-written and model-generated LFQA answers. HaluQuestQA comprises 698 QA pairs with 4.7k span-level error annotations for five different error types by expert annotators, along with preference judgments. Using our collected data, we thoroughly analyze the shortcomings of long-form answers and find that they lack comprehensiveness and provide unhelpful references. We train an automatic feedback model on this dataset that predicts error spans with incomplete information and provides associated explanations. Finally, we propose a prompt-based approach, Error-informed refinement, that uses signals from the learned feedback model to refine generated answers, which we show reduces hallucination and improves answer quality. Furthermore, humans find answers generated by our approach comprehensive and highly prefer them (84%) over the baseline answers.

arxiv情報

著者 Rachneet Sachdeva,Yixiao Song,Mohit Iyyer,Iryna Gurevych
発行日 2024-07-16 17:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク