要約
大規模言語モデル (LLM) は、事実のデータに関する事前トレーニングにもかかわらず、幻覚を起こし、偽の情報を生成する可能性があります。
「情報源によると」というジャーナリスティックな手段に触発されて、私たちはプロンプトに応じて、つまり、以前に観察されたテキストに対してLLMに地上応答を指示することを提案します。
この根拠を定量化するために、モデルによって生成された回答が基礎となるテキスト コーパスで直接見つかる程度を測定する新しい評価指標 (QUIP スコア) を提案します。
ウィキペディアの実験で、これらのプロンプトが指標の基礎を改善し、多くの場合、最終タスクのパフォーマンスが向上するという追加の利点があることを示しています。
さらに、グラウンディングを減らす(または他のコーパスにグラウンディングする)ようにモデルに要求するプロンプトはグラウンディングを減少させます。これは、要求に応じてグラウンディングされた世代を増減できる言語モデルの能力を示しています。
要約(オリジナル)
Large Language Models (LLMs) may hallucinate and generate fake information, despite pre-training on factual data. Inspired by the journalistic device of ‘according to sources’, we propose according-to prompting: directing LLMs to ground responses against previously observed text. To quantify this grounding, we propose a novel evaluation metric (QUIP-Score) that measures the extent to which model-produced answers are directly found in underlying text corpora. We illustrate with experiments on Wikipedia that these prompts improve grounding under our metrics, with the additional benefit of often improving end-task performance. Furthermore, prompts that ask the model to decrease grounding (or to ground to other corpora) decrease grounding, indicating the ability of language models to increase or decrease grounded generations on request.
arxiv情報
著者 | Orion Weller,Marc Marone,Nathaniel Weir,Dawn Lawrie,Daniel Khashabi,Benjamin Van Durme |
発行日 | 2023-05-22 17:25:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google