要約
NLP コミュニティは最近、知識集約型タスクに大規模言語モデル (LLM) を活用することへの関心が高まっており、LLM を潜在的な知識ベース (KB) とみなしています。
ただし、LLM が KB として機能できる信頼性と範囲は、まだ調査されていません。
これまでの研究では、LLM がパラメーター内の知識をエンコードできることが示唆されていますが、パラメトリックな知識の量だけでは、KB としての有効性を評価するには十分ではありません。
この調査では、事実性と一貫性に焦点を当て、目に見える知識と目に見えない知識の両方をカバーする、KB としての信頼できる LLM が満たすべき基準を定義します。
これらの基準に基づいていくつかの指標を開発し、それらを使用して 26 の人気のある LLM を評価するとともに、モデル サイズ、命令チューニング、およびコンテキスト内学習 (ICL) の影響について包括的な分析を提供します。
私たちの結果は憂慮すべき事態を浮き彫りにしています。
GPT-3.5-turbo のような高性能モデルでさえ事実に基づいておらず、一貫性もありません。また、ICL や微調整などの戦略は、LLM をより優れた KB にするのに成功しません。
要約(オリジナル)
The NLP community has recently shown a growing interest in leveraging Large Language Models (LLMs) for knowledge-intensive tasks, viewing LLMs as potential knowledge bases (KBs). However, the reliability and extent to which LLMs can function as KBs remain underexplored. While previous studies suggest LLMs can encode knowledge within their parameters, the amount of parametric knowledge alone is not sufficient to evaluate their effectiveness as KBs. This study defines criteria that a reliable LLM-as-KB should meet, focusing on factuality and consistency, and covering both seen and unseen knowledge. We develop several metrics based on these criteria and use them to evaluate 26 popular LLMs, while providing a comprehensive analysis of the effects of model size, instruction tuning, and in-context learning (ICL). Our results paint a worrying picture. Even a high-performant model like GPT-3.5-turbo is not factual or consistent, and strategies like ICL and fine-tuning are unsuccessful at making LLMs better KBs.
arxiv情報
著者 | Danna Zheng,Mirella Lapata,Jeff Z. Pan |
発行日 | 2024-07-18 15:20:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google