Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators

要約

大規模言語モデル (LLM) は、世界の知識を生成するように求められた場合、下流の知識集約型タスクの情報検索技術よりも優れたパフォーマンスを発揮します。
しかし、この検閲されていない知識を使用することの事実性と潜在的な影響に関して、コミュニティの懸念がたくさんあります。
これを考慮して、6 つの重要な観点 (事実性、関連性、一貫性、有益性、有用性、妥当性) から生成された知識を体系的かつ自動的に評価するように設計された、包括的な知識評価フレームワークである CONNER を紹介します。
私たちは、広く研究されている 2 つの知識集約型タスク、つまりオープンドメインの質問応答と知識に基づく対話について、3 つの異なるタイプの LLM から生成された知識の広範な実証分析を実施します。
驚くべきことに、私たちの研究は、生成された知識の事実性がたとえ低い場合でも、下流のタスクを著しく妨げないことを明らかにしました。
むしろ、小さな事実上の間違いよりも、出力の関連性と一貫性の方が重要です。
さらに、CONNER を使用して、プロンプトエンジニアリングと知識の選択という 2 つの戦略を設計することにより、知識集約型タスクを改善する方法を示します。
当社の評価コードと人間による注釈を付けた LLM 生成のナレッジは、将来の研究を促進するためにリリースされます。

要約(オリジナル)

Large language models (LLMs) outperform information retrieval techniques for downstream knowledge-intensive tasks when being prompted to generate world knowledge. However, community concerns abound regarding the factuality and potential implications of using this uncensored knowledge. In light of this, we introduce CONNER, a COmpreheNsive kNowledge Evaluation fRamework, designed to systematically and automatically evaluate generated knowledge from six important perspectives — Factuality, Relevance, Coherence, Informativeness, Helpfulness and Validity. We conduct an extensive empirical analysis of the generated knowledge from three different types of LLMs on two widely studied knowledge-intensive tasks, i.e., open-domain question answering and knowledge-grounded dialogue. Surprisingly, our study reveals that the factuality of generated knowledge, even if lower, does not significantly hinder downstream tasks. Instead, the relevance and coherence of the outputs are more important than small factual mistakes. Further, we show how to use CONNER to improve knowledge-intensive tasks by designing two strategies: Prompt Engineering and Knowledge Selection. Our evaluation code and LLM-generated knowledge with human annotations will be released to facilitate future research.

arxiv情報

著者	Liang Chen,Yang Deng,Yatao Bian,Zeyu Qin,Bingzhe Wu,Tat-Seng Chua,Kam-Fai Wong
発行日	2023-10-11 08:22:37+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー