要約
大規模な言語モデル(LLMS)は、入力プロンプトに与えられた少数のショットの例を一般化する能力を示します。
LLMSがICLを利用して、ベイジアンフレームワークと一致する方法で構造化された推論を実行するか、パターンマッチングに依存しているかどうかを調査します。
偏ったコインフリップの制御された設定を使用して、(1)LLMSには偏りのあるプライアーがしばしば存在し、ゼロショット設定で初期の発散を引き起こすことがわかります。
ベイジアン推論への影響。
ICLを介したバイアスコインフリップの十分なデモンストレーションにより、LLMSはベイジアンの方法でプライアーを更新します。
要約(オリジナル)
Large language models (LLMs) exhibit the ability to generalize given few-shot examples in their input prompt, an emergent capability known as in-context learning (ICL). We investigate whether LLMs utilize ICL to perform structured reasoning in ways that are consistent with a Bayesian framework or rely on pattern matching. Using a controlled setting of biased coin flips, we find that: (1) LLMs often possess biased priors, causing initial divergence in zero-shot settings, (2) in-context evidence outweighs explicit bias instructions, (3) LLMs broadly follow Bayesian posterior updates, with deviations primarily due to miscalibrated priors rather than flawed updates, and (4) attention magnitude has negligible effect on Bayesian inference. With sufficient demonstrations of biased coin flips via ICL, LLMs update their priors in a Bayesian manner.
arxiv情報
著者 | Ritwik Gupta,Rodolfo Corona,Jiaxin Ge,Eric Wang,Dan Klein,Trevor Darrell,David M. Chan |
発行日 | 2025-03-06 18:59:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google