Localizing and Mitigating Errors in Long-form Question Answering


長文質問応答 (LFQA) は、複雑な質問に対して徹底的かつ詳細な回答を提供し、理解を高めることを目的としています。
この研究では、人間が作成した、モデルが生成した LFQA 回答に対する局所的なエラー アノテーションを備えた初の幻覚データセットである HaluQuestQA を導入します。
HaluQuestQA は、専門アノテーターによる 5 つの異なるエラー タイプに対する 1.8k スパンレベルのエラー アノテーションと好みの判断を備えた 698 の QA ペアで構成されています。
このデータセットで自動フィードバック モデルをトレーニングし、不完全な情報でエラー スパンを予測し、関連する説明を提供します。
最後に、学習したフィードバック モデルからの信号を使用して生成された回答を絞り込む、プロンプトベースのアプローチであるエラー通知による絞り込みを提案します。これにより、複数のモデルにわたってエラーが削減され、回答の品質が向上することを示します。
さらに、人間は私たちのアプローチによって生成された回答が包括的であると感じ、ベースラインの回答よりもそれらの回答を非常に好みます (84%)。


Long-form question answering (LFQA) aims to provide thorough and in-depth answers to complex questions, enhancing comprehension. However, such detailed responses are prone to hallucinations and factual inconsistencies, challenging their faithful evaluation. This work introduces HaluQuestQA, the first hallucination dataset with localized error annotations for human-written and model-generated LFQA answers. HaluQuestQA comprises 698 QA pairs with 1.8k span-level error annotations for five different error types by expert annotators, along with preference judgments. Using our collected data, we thoroughly analyze the shortcomings of long-form answers and find that they lack comprehensiveness and provide unhelpful references. We train an automatic feedback model on this dataset that predicts error spans with incomplete information and provides associated explanations. Finally, we propose a prompt-based approach, Error-informed refinement, that uses signals from the learned feedback model to refine generated answers, which we show reduces errors and improves answer quality across multiple models. Furthermore, humans find answers generated by our approach comprehensive and highly prefer them (84%) over the baseline answers.


著者 Rachneet Sachdeva,Yixiao Song,Mohit Iyyer,Iryna Gurevych
発行日 2024-10-24 16:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク