Prompt-based methods may underestimate large language models’ linguistic generalizations

要約

プロンプトは現在、大規模言語モデル (LLM) の言語知識を評価するための主要な方法です。
他の方法では文字列上のモデルの確率分布を直接読み取るのに対し、プロンプトではモデルが言語入力を処理してこの内部情報にアクセスする必要があり、それによって新しいタイプの創発的能力であるメタ言語的判断を暗黙的にテストすることになります。
この研究では、モデルの英語知識を測定する方法として、メタ言語的プロンプトと直接確率測定を比較します。
概して、LLM のメタ言語的判断は、表現から直接得られる量よりも劣っていることがわかります。
さらに、プロンプトが次の単語の確率の直接的な測定から乖離するため、一貫性は悪化します。
私たちの調査結果は、メタ言語プロンプトに依存する否定的な結果は、LLM が特定の言語能力を欠いているという決定的な証拠として捉えることはできないことを示唆しています。
私たちの結果は、確率分布へのアクセスが制限されているクローズド API への移行に伴う価値の損失も浮き彫りにしています。

要約(オリジナル)

Prompting is now a dominant method for evaluating the linguistic knowledge of large language models (LLMs). While other methods directly read out models’ probability distributions over strings, prompting requires models to access this internal information by processing linguistic input, thereby implicitly testing a new type of emergent ability: metalinguistic judgment. In this study, we compare metalinguistic prompting and direct probability measurements as ways of measuring models’ knowledge of English. Broadly, we find that LLMs’ metalinguistic judgments are inferior to quantities directly derived from representations. Furthermore, consistency gets worse as the prompt diverges from direct measurements of next-word probabilities. Our findings suggest that negative results relying on metalinguistic prompts cannot be taken as conclusive evidence that an LLM lacks a particular linguistic competence. Our results also highlight the lost value with the move to closed APIs where access to probability distributions is limited.

arxiv情報

著者 Jennifer Hu,Roger Levy
発行日 2023-05-22 17:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク