要約
長型の質問応答(LFQA)は、複雑な質問に対する徹底的かつ詳細な回答を提供し、理解を高めることを目指しています。
しかし、そのような詳細な反応は、幻覚と事実上の矛盾に起因しやすく、彼らの忠実な評価に挑戦します。
この作業では、人間が書かれたモデルで生成されたLFQA回答のローカライズされたエラー注釈を備えた最初の幻覚データセットであるHaluquestQAを紹介します。
HaluquestQAは、エキスパートアノテーターによる5つの異なるエラータイプの1.8Kスパンレベルエラーアノテーションを備えた698 QAペアで構成され、優先判断とともに。
収集されたデータを使用して、長型の回答の欠点を徹底的に分析し、包括性が欠けていることを発見し、役に立たない参照を提供します。
このデータセットで、エラースパンが不完全な情報を使用し、関連する説明を提供する自動フィードバックモデルをトレーニングします。
最後に、学習されたフィードバックモデルからの信号を使用して生成された回答を改善するプロンプトベースのアプローチ、エラーに基づいた改良を提案します。
さらに、人間は私たちのアプローチによって生成された答えを包括的に包括的に見つけ、ベースラインの回答よりもそれらを高く(84%)。
要約(オリジナル)
Long-form question answering (LFQA) aims to provide thorough and in-depth answers to complex questions, enhancing comprehension. However, such detailed responses are prone to hallucinations and factual inconsistencies, challenging their faithful evaluation. This work introduces HaluQuestQA, the first hallucination dataset with localized error annotations for human-written and model-generated LFQA answers. HaluQuestQA comprises 698 QA pairs with 1.8k span-level error annotations for five different error types by expert annotators, along with preference judgments. Using our collected data, we thoroughly analyze the shortcomings of long-form answers and find that they lack comprehensiveness and provide unhelpful references. We train an automatic feedback model on this dataset that predicts error spans with incomplete information and provides associated explanations. Finally, we propose a prompt-based approach, Error-informed refinement, that uses signals from the learned feedback model to refine generated answers, which we show reduces errors and improves answer quality across multiple models. Furthermore, humans find answers generated by our approach comprehensive and highly prefer them (84%) over the baseline answers.
arxiv情報
著者 | Rachneet Sachdeva,Yixiao Song,Mohit Iyyer,Iryna Gurevych |
発行日 | 2025-04-11 15:46:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google