要約
大規模言語モデル (LLM) は、さまざまな NLP タスクの実行には効果的ですが、特にロングテール ファクト (ロングテール エンティティに関連するファクト) を扱う場合、広範な現実世界の知識を必要とするタスクを処理するのはまだ困難です。
この制限は、LLM をノンパラメトリックな知識で補完する必要性を強調しています。
この問題に対処するために、テキストの一節やナレッジ グラフ (KG) など、さまざまなタイプのノンパラメトリック知識の影響を分析しました。
LLM はおそらく、事実に基づく質問応答データセットの大部分をすでに見ているので、分析を容易にするために、関連する質問に答えるためにロングテールの事実の知識を必要とするベンチマークを作成するための完全自動パイプラインを提案しました。
このパイプラインを使用して、LTGen ベンチマークを導入します。
提案されたベンチマークを使用して、さまざまな知識設定で最先端の LLM を評価します。
私たちの実験によると、特にロングテールのレベルが高い場合や豊富な知識が必要な場合、LLM だけがこれらの質問に答えるのに苦労していることがわかりました。
それにもかかわらず、同じモデルにノンパラメトリックな知識を与えた場合、そのパフォーマンスは大幅に向上しました。
私たちは、ほとんどの場合、KG トリプルを使用した LLM のプロンプトが、最先端のレトリーバーを使用したパッセージベースのプロンプトを上回ることを観察しました。
さらに、KG トリプルとドキュメントの両方で LLM にプロンプトを表示しても、知識範囲は一貫して向上しませんが、生成されたコンテンツの幻覚を大幅に減らすことができます。
要約(オリジナル)
Although Large Language Models (LLMs) are effective in performing various NLP tasks, they still struggle to handle tasks that require extensive, real-world knowledge, especially when dealing with long-tail facts (facts related to long-tail entities). This limitation highlights the need to supplement LLMs with non-parametric knowledge. To address this issue, we analysed the effects of different types of non-parametric knowledge, including textual passage and knowledge graphs (KGs). Since LLMs have probably seen the majority of factual question-answering datasets already, to facilitate our analysis, we proposed a fully automatic pipeline for creating a benchmark that requires knowledge of long-tail facts for answering the involved questions. Using this pipeline, we introduce the LTGen benchmark. We evaluate state-of-the-art LLMs in different knowledge settings using the proposed benchmark. Our experiments show that LLMs alone struggle with answering these questions, especially when the long-tail level is high or rich knowledge is required. Nonetheless, the performance of the same models improved significantly when they were prompted with non-parametric knowledge. We observed that, in most cases, prompting LLMs with KG triples surpasses passage-based prompting using a state-of-the-art retriever. In addition, while prompting LLMs with both KG triples and documents does not consistently improve knowledge coverage, it can dramatically reduce hallucinations in the generated content.
arxiv情報
著者 | Wenyu Huang,Guancheng Zhou,Mirella Lapata,Pavlos Vougiouklis,Sebastien Montella,Jeff Z. Pan |
発行日 | 2024-05-10 15:10:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google