Augmenting LLMs with Knowledge: A survey on hallucination prevention

要約

大規模な事前トレーニング済み言語モデルは、パラメータ内に事実の知識を保存し、下流の自然言語処理タスクに合わせて微調整した場合に優れた結果を達成する能力を実証しています。
それにもかかわらず、知識にアクセスして正確に操作する能力は依然として制限されており、その結果、タスク固有のアーキテクチャと比較した場合、知識集約型タスクのパフォーマンスに差が生じます。
さらに、モデル決定の来歴を提供し、最新の世界知識を維持するという課題は、オープンな研究フロンティアとして依然として残っています。
これらの制限に対処するために、明示的なノンパラメトリック メモリへの微分可能なアクセス メカニズムを備えた事前トレーニング済みモデルの統合が、有望なソリューションとして浮上します。
この調査では、外部知識ベースや検索エンジンなどの外部知識源を利用する機能を強化した言語モデル (LM) の領域を掘り下げています。
これらの拡張 LM は、欠落トークンを予測するという標準的な目的を遵守しながら、従来の言語モデリング パラダイムから逸脱して、多様でおそらくノンパラメトリックな外部モジュールを活用してコンテキスト処理機能を強化します。
この研究では、大規模な言語モデルを知識で強化する現在の進歩を調査することにより、この新たな研究の方向性が、幻覚、根拠のない反応、スケーラビリティの課題など、従来の LM で蔓延している問題に対処できる可能性を秘めていると結論付けています。

要約(オリジナル)

Large pre-trained language models have demonstrated their proficiency in storing factual knowledge within their parameters and achieving remarkable results when fine-tuned for downstream natural language processing tasks. Nonetheless, their capacity to access and manipulate knowledge with precision remains constrained, resulting in performance disparities on knowledge-intensive tasks when compared to task-specific architectures. Additionally, the challenges of providing provenance for model decisions and maintaining up-to-date world knowledge persist as open research frontiers. To address these limitations, the integration of pre-trained models with differentiable access mechanisms to explicit non-parametric memory emerges as a promising solution. This survey delves into the realm of language models (LMs) augmented with the ability to tap into external knowledge sources, including external knowledge bases and search engines. While adhering to the standard objective of predicting missing tokens, these augmented LMs leverage diverse, possibly non-parametric external modules to augment their contextual processing capabilities, departing from the conventional language modeling paradigm. Through an exploration of current advancements in augmenting large language models with knowledge, this work concludes that this emerging research direction holds the potential to address prevalent issues in traditional LMs, such as hallucinations, un-grounded responses, and scalability challenges.

arxiv情報

著者 Konstantinos Andriopoulos,Johan Pouwelse
発行日 2023-09-28 14:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク