要約
大規模言語モデル (LLM) は、情報探索に広く使用されているツールとして登場しましたが、生成された出力は幻覚を起こしやすいものです。
この作業では、LLM が引用を含むテキストを生成できるようにして、事実の正確さと検証可能性を向上させることを目的としています。
既存の研究は主に商用検索エンジンと人間による評価に依存しているため、さまざまなモデリング アプローチを再現して比較することが困難になっています。
私たちは、自動 LLM の引用評価の最初のベンチマークである ALCE を提案します。
ALCE は、多様な質問と検索コーパスを収集しており、裏付けとなる証拠を検索し、引用を含む回答を生成するためのエンドツーエンド システムを構築する必要があります。
私たちは、流暢さ、正確さ、引用の質という 3 つの側面に沿った自動指標を開発し、人間の判断との強い相関関係を実証しています。
最先端の LLM と新しいプロンプト戦略を用いた私たちの実験は、現在のシステムには改善の余地がかなりあることを示しています。たとえば、ELI5 データセットでは、最良のモデルであっても 50% の確率で完全な引用サポートが不足しています。
私たちの分析は、より優れたレトリバーの開発、ロングコンテキスト LLM の進歩、複数のソースからの情報を合成する能力の向上など、有望な将来の方向性をさらに強調しています。
要約(オリジナル)
Large language models (LLMs) have emerged as a widely-used tool for information seeking, but their generated outputs are prone to hallucination. In this work, our aim is to allow LLMs to generate text with citations, improving their factual correctness and verifiability. Existing work mainly relies on commercial search engines and human evaluation, making it challenging to reproduce and compare different modeling approaches. We propose ALCE, the first benchmark for Automatic LLMs’ Citation Evaluation. ALCE collects a diverse set of questions and retrieval corpora and requires building end-to-end systems to retrieve supporting evidence and generate answers with citations. We develop automatic metrics along three dimensions — fluency, correctness, and citation quality — and demonstrate their strong correlation with human judgements. Our experiments with state-of-the-art LLMs and novel prompting strategies show that current systems have considerable room for improvement — For example, on the ELI5 dataset, even the best models lack complete citation support 50% of the time. Our analyses further highlight promising future directions, including developing better retrievers, advancing long-context LLMs, and improving the ability to synthesize information from multiple sources.
arxiv情報
著者 | Tianyu Gao,Howard Yen,Jiatong Yu,Danqi Chen |
発行日 | 2023-10-31 15:04:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google