Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity

要約

この調査は、大規模言語モデル (LLM) の事実性に関する重大な問題に取り組んでいます。
LLM がさまざまなドメインにわたるアプリケーションを見つけるにつれて、その出力の信頼性と精度が非常に重要になります。
私たちは、事実問題を、確立された事実と矛盾するコンテンツを LLM が作成する確率として定義します。
まず、これらの不正確さの影響を詳しく調べ、LLM 出力の事実誤認によってもたらされる潜在的な結果と課題を強調します。
続いて、LLM が事実を保存および処理するメカニズムを分析し、事実誤認の主な原因を探します。
その後、私たちの議論は、主要な指標、ベンチマーク、研究を強調しながら、LLM の事実を評価するための方法論に移ります。
さらに、特定のドメインに合わせたアプローチなど、LLM の事実性を高めるための戦略を検討します。
ここでは、スタンドアロン LLM と外部データを利用する検索拡張 LLM という 2 つの主要な LLM 構成に焦点を当て、それぞれの固有の課題と潜在的な拡張機能について詳しく説明します。
私たちの調査は、LLM の事実の信頼性を強化することを目的とした研究者に構造化されたガイドを提供します。

要約(オリジナル)

This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.

arxiv情報

著者 Cunxiang Wang,Xiaoze Liu,Yuanhao Yue,Xiangru Tang,Tianhang Zhang,Cheng Jiayang,Yunzhi Yao,Wenyang Gao,Xuming Hu,Zehan Qi,Yidong Wang,Linyi Yang,Jindong Wang,Xing Xie,Zheng Zhang,Yue Zhang
発行日 2023-10-18 14:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク