Addressing Hallucinations in Language Models with Knowledge Graph Embeddings as an Additional Modality

要約

この論文では、追加のモダリティとしてナレッジ グラフ (KG) を組み込むことで、大規模言語モデル (LLM) の幻覚を軽減するアプローチを紹介します。
私たちの方法では、外部の検索プロセスに依存せずに、入力テキストを KG 埋め込みのセットに変換し、アダプターを使用してこれらの埋め込みを言語モデル空間に統合します。
これを容易にするために、WikiEntities を作成しました。これは、Wikidata のエンティティと、PyTorch-BigGraph の対応する埋め込みで注釈が付けられた 300 万を超える Wikipedia テキストを含むデータセットです。
このデータセットは、エンティティ リンク モデルをトレーニングし、特殊なアダプターを使用して説明された方法をさまざまな LLM に適応させるための貴重なリソースとして機能します。
私たちの方法では、言語モデル自体を微調整する必要はありません。
代わりに、アダプターのみをトレーニングします。
これにより、他のタスクにおけるモデルのパフォーマンスが影響を受けなくなります。
このデータセットを使用して、Mistral 7B、LLaMA 2-7B (チャット)、および LLaMA 3-8B (命令) モデルのアダプターをトレーニングし、私たちのアプローチが HaluEval、True-False ベンチマーク、および FEVER データセットでのパフォーマンスを向上させることを実証しました。
この結果は、KG を新しいモダリティとして組み込むことで、外部からの検索を必要とせずに、幻覚を効果的に軽減し、言語モデルの事実の精度を向上させることができることを示しています。

要約(オリジナル)

In this paper we present an approach to reduce hallucinations in Large Language Models (LLMs) by incorporating Knowledge Graphs (KGs) as an additional modality. Our method involves transforming input text into a set of KG embeddings and using an adapter to integrate these embeddings into the language model space, without relying on external retrieval processes. To facilitate this, we created WikiEntities, a dataset containing over 3 million Wikipedia texts annotated with entities from Wikidata and their corresponding embeddings from PyTorch-BigGraph. This dataset serves as a valuable resource for training Entity Linking models and adapting the described method to various LLMs using specialized adapters. Our method does not require fine-tuning of the language models themselves; instead, we only train the adapter. This ensures that the model’s performance on other tasks is not affected. We trained an adapter for the Mistral 7B, LLaMA 2-7B (chat), and LLaMA 3-8B (instruct) models using this dataset and demonstrated that our approach improves performance on the HaluEval, True-False benchmarks and FEVER dataset. The results indicate that incorporating KGs as a new modality can effectively reduce hallucinations and improve the factual accuracy of language models, all without the need for external retrieval.

arxiv情報

著者 Viktoriia Chekalina,Anton Razzigaev,Elizaveta Goncharova,Andrey Kuznetsov
発行日 2024-11-18 12:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク