Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling

要約

大規模な言語モデル(LLM)は、自然言語を使用して確率分布を正確に記述することができますが、それでも忠実なサンプルを生成するのに苦労しています。
このミスマッチは、モンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定など、信頼できる確率性を必要とするタスクでの使用を制限します。
ベルヌーリ分布のコンテキストでの知識とサンプリングの間のこのギャップを調査します。
言語化された拒絶サンプリング(VRS)を導入します。これは、LLMが提案されたサンプルについて推論し、受け入れるか拒否するように促す古典的な拒絶サンプリングの自然な言語適応です。
同じベルヌーリメカニズムに内部的に依存しているにもかかわらず、VRはモデル間のサンプリングバイアスを大幅に減らします。
穏やかな仮定の下で、VRSは直接サンプリングよりも改善され、アルゴリズムと迅速な設計の両方に起因する利益が改善されることを示す理論分析を提供します。
より広く言えば、我々の結果は、モデルの内部や迅速なエンジニアリングへのアクセスを必要とせずに、信頼性を向上させるために、古典的な確率的ツールをLLMワークフローに言語化し、埋め込む方法を示しています。

要約(オリジナル)

Large language models (LLMs) can often accurately describe probability distributions using natural language, yet they still struggle to generate faithful samples from them. This mismatch limits their use in tasks requiring reliable stochasticity, such as Monte Carlo methods, agent-based simulations, and randomized decision-making. We investigate this gap between knowledge and sampling in the context of Bernoulli distributions. We introduce Verbalized Rejection Sampling (VRS), a natural-language adaptation of classical rejection sampling that prompts the LLM to reason about and accept or reject proposed samples. Despite relying on the same Bernoulli mechanism internally, VRS substantially reduces sampling bias across models. We provide theoretical analysis showing that, under mild assumptions, VRS improves over direct sampling, with gains attributable to both the algorithm and prompt design. More broadly, our results show how classical probabilistic tools can be verbalized and embedded into LLM workflows to improve reliability, without requiring access to model internals or heavy prompt engineering.

arxiv情報

著者 Tim Z. Xiao,Johannes Zenn,Zhen Liu,Weiyang Liu,Robert Bamler,Bernhard Schölkopf
発行日 2025-06-11 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク