要約
LLM は人間が長い文書を扱うのに役立ちますが、幻覚を引き起こすことが知られています。
アトリビューションにより LLM 応答の信頼性が向上します。LLM はその応答を裏付ける証拠を提供し、検証可能性が高まります。
アトリビューションに対する既存のアプローチは、RAG 設定でのみ評価されており、最初の取得が LLM のパフォーマンスを混乱させます。
これは、検索が必要ないが役立つ可能性がある長い文書の設定とは決定的に異なります。
したがって、長い文書固有の帰属の評価が欠落しています。
このギャップを埋めるために、アトリビューションを伴う 6 つの多様な長いドキュメント タスクのベンチマークである LAB を紹介し、異なるサイズの 5 つの LLM でアトリビューションに対するさまざまなアプローチを実験します。
引用、つまり 1 ステップでの応答生成と証拠抽出は、大規模で微調整されたモデルで最も効果的ですが、追加の検索は小規模でプロンプトのあるモデルの場合に役立ちます。
帰属を特定するために「Lost in the Middle」現象が存在するかどうかを調査しますが、これは見つかりません。
また、モデルが複雑な主張に対する証拠を提供するのに苦労しているため、単純な応答ではデータセットの応答品質を証拠の品質によって予測できますが、複雑な応答では予測できないこともわかりました。
要約(オリジナル)
LLMs can help humans working with long documents, but are known to hallucinate. Attribution can increase trust in LLM responses: The LLM provides evidence that supports its response, which enhances verifiability. Existing approaches to attribution have only been evaluated in RAG settings, where the initial retrieval confounds LLM performance. This is crucially different from the long document setting, where retrieval is not needed, but could help. Thus, a long document specific evaluation of attribution is missing. To fill this gap, we present LAB, a benchmark of 6 diverse long document tasks with attribution, and experiments with different approaches to attribution on 5 LLMs of different sizes. We find that citation, i.e. response generation and evidence extraction in one step, performs best for large and fine-tuned models, while additional retrieval can help for small, prompted models. We investigate whether the ‘Lost in the Middle” phenomenon exists for attribution, but do not find this. We also find that evidence quality can predict response quality on datasets with simple responses, but not so for complex responses, as models struggle with providing evidence for complex claims.
arxiv情報
著者 | Jan Buchmann,Xiao Liu,Iryna Gurevych |
発行日 | 2024-10-23 14:00:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google