要約
この論文では、大規模言語モデル (LLM) 内に埋め込まれた事実の知識を確実に推定するという困難なタスクに焦点を当てます。
従来のアプローチによる信頼性の問題を回避するために、LLM を調査して事実の知識を得る際の即時エンジニアリングを省略することを提案します。
Zero-Prompt Latent Knowledge Estimator (ZP-LKE) と呼ばれる私たちのアプローチは、LLM のコンテキスト内学習能力を活用して、事実に関する知識の質問と予想される回答形式の両方を伝達します。
私たちの知識推定ツールは、概念的に単純 (つまり、LLM のメタ言語的判断に依存しない) であり、適用が容易 (つまり、LLM 固有ではない) の両方であり、それが、世界に埋め込まれた潜在的な知識をより多く表面化できることを実証します。
LLM。
また、さまざまな設計の選択が ZP-LKE のパフォーマンスにどのような影響を与えるかについても調査します。
提案された推定ツールを使用して、OPT、Pythia、Llama(2)、Mistral、Gemma などのさまざまなオープンソース LLM の事実知識の大規模な評価を、大規模な関係と事実のセットに対して実行します。
ウィキデータの知識ベース。
さまざまなモデルファミリーやさまざまなサイズのモデル間の事実知識の違い、一部の関係は他の関係よりも常によく知られているが、モデルごとに知っている正確な事実が異なること、ベースモデルとその微調整された対応部分の知識の違いが観察されます。
コードはhttps://github.com/QinyuanWu0710/ZeroPrompt_LKEで入手できます。
要約(オリジナル)
In this paper, we focus on the challenging task of reliably estimating factual knowledge that is embedded inside large language models (LLMs). To avoid reliability concerns with prior approaches, we propose to eliminate prompt engineering when probing LLMs for factual knowledge. Our approach, called Zero-Prompt Latent Knowledge Estimator (ZP-LKE), leverages the in-context learning ability of LLMs to communicate both the factual knowledge question as well as the expected answer format. Our knowledge estimator is both conceptually simpler (i.e., doesn’t depend on meta-linguistic judgments of LLMs) and easier to apply (i.e., is not LLM-specific), and we demonstrate that it can surface more of the latent knowledge embedded in LLMs. We also investigate how different design choices affect the performance of ZP-LKE. Using the proposed estimator, we perform a large-scale evaluation of the factual knowledge of a variety of open-source LLMs, like OPT, Pythia, Llama(2), Mistral, Gemma, etc. over a large set of relations and facts from the Wikidata knowledge base. We observe differences in the factual knowledge between different model families and models of different sizes, that some relations are consistently better known than others but that models differ in the precise facts they know, and differences in the knowledge of base models and their finetuned counterparts. Code available at: https://github.com/QinyuanWu0710/ZeroPrompt_LKE
arxiv情報
著者 | Qinyuan Wu,Mohammad Aflah Khan,Soumi Das,Vedant Nanda,Bishwamittra Ghosh,Camila Kolling,Till Speicher,Laurent Bindschaedler,Krishna P. Gummadi,Evimaria Terzi |
発行日 | 2024-12-17 15:38:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google