Prompting is not a substitute for probability measurements in large language models

要約

プロンプトは現在、大規模言語モデル (LLM) の言語知識を評価するための主要な方法です。
他の方法では文字列上のモデルの確率分布を直接読み取るのに対し、プロンプトではモデルが言語入力を処理してこの内部情報にアクセスする必要があり、それによって新しいタイプの創発的能力であるメタ言語的判断を暗黙的にテストすることになります。
この研究では、モデルの言語知識を測定する方法として、メタ言語プロンプトと直接確率測定を比較します。
概して、LLM のメタ言語的判断は、表現から直接得られる量よりも劣っていることがわかります。
さらに、プロンプト クエリが次の単語の確率の直接的な測定値から逸脱するため、一貫性は悪化します。
私たちの調査結果は、メタ言語プロンプトに依存する否定的な結果は、LLM が特定の言語一般化を欠いているという決定的な証拠として捉えることはできないことを示唆しています。
私たちの結果は、確率分布へのアクセスが制限されているクローズド API への移行によって失われる価値も浮き彫りにしています。

要約(オリジナル)

Prompting is now a dominant method for evaluating the linguistic knowledge of large language models (LLMs). While other methods directly read out models’ probability distributions over strings, prompting requires models to access this internal information by processing linguistic input, thereby implicitly testing a new type of emergent ability: metalinguistic judgment. In this study, we compare metalinguistic prompting and direct probability measurements as ways of measuring models’ linguistic knowledge. Broadly, we find that LLMs’ metalinguistic judgments are inferior to quantities directly derived from representations. Furthermore, consistency gets worse as the prompt query diverges from direct measurements of next-word probabilities. Our findings suggest that negative results relying on metalinguistic prompts cannot be taken as conclusive evidence that an LLM lacks a particular linguistic generalization. Our results also highlight the value that is lost with the move to closed APIs where access to probability distributions is limited.

arxiv情報

著者 Jennifer Hu,Roger Levy
発行日 2023-10-23 14:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク