要約
検索拡張大規模言語モデル (LLM) による長文質問応答 (LFQA) の根拠に関する実証研究を紹介します。
特に、生成されたすべての文が、取得されたドキュメントまたはモデルの事前トレーニング データに基づいているかどうかを評価します。
3 つのデータセットと 4 つのモデル ファミリにわたって、私たちの調査結果は、生成された文のかなりの部分が、たとえそれらの文に正しいグラウンドトゥルースの答えが含まれていたとしても、一貫して根拠がないことを明らかにしました。
さらに、モデルのサイズ、デコード戦略、命令チューニングなどの要因がグラウンディングに及ぼす影響を調べます。
私たちの結果は、より大きなモデルは出力をより効果的に接地する傾向がある一方で、正解のかなりの部分が依然として幻覚によって損なわれていることを示しています。
この研究は、LFQA における根拠のある課題について新たな洞察を提供し、根拠のないコンテンツの生成を軽減するための LLM のより堅牢なメカニズムの必要性を強調しています。
要約(オリジナル)
We present an empirical study of groundedness in long-form question answering (LFQA) by retrieval-augmented large language models (LLMs). In particular, we evaluate whether every generated sentence is grounded in the retrieved documents or the model’s pre-training data. Across 3 datasets and 4 model families, our findings reveal that a significant fraction of generated sentences are consistently ungrounded, even when those sentences contain correct ground-truth answers. Additionally, we examine the impacts of factors such as model size, decoding strategy, and instruction tuning on groundedness. Our results show that while larger models tend to ground their outputs more effectively, a significant portion of correct answers remains compromised by hallucinations. This study provides novel insights into the groundedness challenges in LFQA and underscores the necessity for more robust mechanisms in LLMs to mitigate the generation of ungrounded content.
arxiv情報
著者 | Alessandro Stolfo |
発行日 | 2024-04-10 14:50:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google